ИИ-модель

40 открытий

stabilityai/sd-turbo

SD Turbo — это высокоскоростная генеративная модель от Stability AI, предназначенная для синтеза изображений в реальном времени. Благодаря технологии Adversarial Diffusion Distillation (ADD) модель достигает высокой точности всего за один шаг, значительно снижая задержки по сравнению с традиционными диффузионными моделями. Это open-source решение позволяет разработчикам создавать интерактивные приложения с минимальной задержкой, что является прорывом для рабочих процессов генерации AI-арта в реальном времени.

text-to-imagegenerative-aistable-diffusionreal-time

Qwen/Qwen3-4B-Instruct-2507-FP8

Qwen3-4B-Instruct-2507-FP8 — это оптимизированная инструктивная языковая модель от команды Qwen. Благодаря квантованию FP8, эта модель с 4 миллиардами параметров обеспечивает высокую производительность генерации текста при значительно сниженных требованиях к памяти и вычислительным ресурсам. Она идеально подходит для разработчиков, которым нужен баланс между качеством ответов и скоростью инференса в условиях ограниченных ресурсов или при развертывании на периферийных устройствах.

qwen3fp8text-generationllm

MoonshotAI: Kimi K2.7 Code (free)

Kimi K2.7 Code от MoonshotAI — это специализированная ИИ-модель для решения сложных задач программирования и разработки ПО. Используя архитектуру «смесь экспертов» (MoE), модель эффективно работает с огромными кодовыми базами и технической документацией. Благодаря контекстному окну в 262 144 токена, она поддерживает высокую связность в масштабных проектах. Поддержка текстовых и графических входных данных делает её универсальным инструментом для разработчиков, которым необходимо анализировать UI-дизайн или технические схемы параллельно с кодом.

codingllmmultimodallong-context

Poolside: Laguna M.1

Laguna M.1 — флагманская ИИ-модель от Poolside, оптимизированная для задач программной инженерии. Она поддерживает агентные рабочие процессы, вызов инструментов и сложные логические рассуждения. Благодаря контекстному окну в 262 144 токена, модель позволяет разработчикам анализировать огромные кодовые базы и поддерживать целостность проекта. Laguna M.1 легко интегрируется в современные среды разработки, обеспечивая высокую производительность в задачах написания кода и автоматизации программного обеспечения.

codingagentsoftware-engineeringllm

google-research/timesfm

TimesFM (Time Series Foundation Model) — это проект с открытым исходным кодом от Google Research, призванный изменить подход к прогнозированию временных рядов. Используя архитектуру базовой модели, он обеспечивает zero-shot инференс на новых данных, исключая необходимость в длительном переобучении. Модель обрабатывает данные как патчи, что позволяет ей обобщать информацию для различных частот и предметных областей, предоставляя специалистам по данным универсальный инструмент для повышения точности прогнозов без создания моделей с нуля.

time-seriesforecastingfoundation-modelgoogle-research

Poolside: Laguna XS.2

Laguna XS.2 — это компактная модель второго поколения для программирования от компании Poolside. Она создана для агентских рабочих процессов, сочетая легкость с продвинутыми навыками рассуждения и вызова инструментов. Благодаря контекстному окну в 262 тыс. токенов и доступной цене, модель эффективно справляется со сложными задачами разработки. Laguna XS.2 поддерживает структурированный вывод и интеграцию инструментов, что делает её отличным выбором для создания отзывчивых помощников по программированию без необходимости использования огромных моделей.

codingagentreasoningefficient

pyannote/speaker-diarization

Разработанная pyannote, эта модель диаризации является ведущим решением для разделения аудиопотоков на сегменты по идентификатору говорящего. Она эффективно выполняет обнаружение активности голоса, смену спикеров и извлечение эмбеддингов. Модель широко используется в исследовательском сообществе и среди разработчиков, предоставляя надежный конвейер для транскрибации многоголосых записей, что позволяет точно анализировать встречи, интервью и эфирные материалы путем идентификации отдельных участников.

audiospeechdiarizationvoice

Lykon/dreamshaper-7

DreamShaper 7 — популярная open-source модель преобразования текста в изображение от Lykon. Построенная на архитектуре Stable Diffusion, она дообучена для получения высококачественных результатов в различных стилях, от фотореализма до аниме. С более чем 700 000 загрузок, модель стала незаменимым инструментом для цифровых художников и энтузиастов ИИ, обеспечивая баланс между художественной выразительностью и точным следованием промптам.

stable-diffusiontext-to-imageartanime

ZhengPeng7/BiRefNet

BiRefNet — это мощная модель с открытым исходным кодом от ZhengPeng7, предназначенная для высококачественной сегментации изображений. Она превосходно справляется с дихотомической сегментацией, обнаружением значимых объектов и объектов на маскирующем фоне. Благодаря передовой архитектуре модель обеспечивает создание четких масок и эффективное удаление фона, что делает ее отличным выбором для разработчиков и исследователей в области компьютерного зрения.

image-segmentationbackground-removalcomputer-visiondeep-learning

biohub/ESMC-6B

ESMC-6B — это специализированная языковая модель белков от Biohub, предназначенная для маскированного языкового моделирования биологических последовательностей. Модель с 6 миллиардами параметров глубоко анализирует структуру и функции белков, предоставляя исследователям мощный инструмент для белковой инженерии, прогнозирования эффектов вариантов и структурной биологии. Она широко используется для создания высококачественных эмбеддингов белков, способствуя прорывам в синтетической биологии и разработке лекарств.

biologyproteinesmtransformers

distil-whisper/distil-large-v3

Distil-Whisper/distil-large-v3 — это оптимизированная модель автоматического распознавания речи, разработанная командой Distil-Whisper. Путем дистилляции модели OpenAI Whisper large-v3 удалось добиться значительно более высокой скорости вывода и меньшего объема памяти при сохранении высокой точности транскрибации. Модель является прямой заменой Whisper, что делает её идеальной для приложений реального времени и сред с ограниченными ресурсами.

whisperasrspeech-recognitiondistillation

rinna/japanese-roberta-base

rinna/japanese-roberta-base — это модель с открытым исходным кодом от компании rinna. Построенная на архитектуре RoBERTa, она предварительно обучена на японских текстовых корпусах, включая набор данных CC100. Модель предназначена для задач заполнения пропусков (fill-mask) и служит надежной основой для различных приложений японского NLP, обеспечивая высокую эффективность и совместимость с экосистемой Hugging Face Transformers.

japaneserobertanlpmasked-lm

lmstudio-community/gemma-4-E4B-it-MLX-5bit

lmstudio-community/gemma-4-E4B-it-MLX-5bit — это специализированная квантованная версия модели Google Gemma 4 E4B, разработанная для фреймворка MLX. Благодаря 5-битному квантованию модель обеспечивает эффективный мультимодальный вывод (any-to-any) на оборудовании Apple Silicon. Она предлагает оптимальный баланс между высокой точностью и сниженными требованиями к памяти, что делает её идеальным выбором для локального запуска сложных мультимодальных задач на компьютерах Mac.

gemma4mlxmultimodalquantization

lmstudio-community/gemma-4-E4B-it-MLX-6bit

lmstudio-community/gemma-4-E4B-it-MLX-6bit — это квантованная версия модели Google Gemma 4 E4B, специально оптимизированная для фреймворка Apple MLX. Эта мультимодальная модель (any-to-any) обеспечивает эффективную обработку изображений и текста на устройствах Mac. Использование 6-битной квантованности значительно снижает потребление памяти при сохранении высокой производительности, что делает её идеальным выбором для разработчиков, запускающих сложные задачи ИИ локально на macOS.

gemma4mlxmultimodalquantization

lmstudio-community/gemma-4-E4B-it-MLX-8bit

lmstudio-community/gemma-4-E4B-it-MLX-8bit — это квантованная версия мультимодальной модели Gemma 4-E4B, оптимизированная для работы с фреймворком MLX. Модель, поддерживаемая сообществом LM Studio, обеспечивает высокую производительность при выполнении задач «any-to-any» на устройствах Apple Silicon. Благодаря 8-битной квантованию значительно снижается потребление памяти при сохранении базовых возможностей архитектуры Gemma 4, что делает её отличным выбором для локального запуска продвинутых мультимодальных ИИ-задач на Mac.

gemma4mlxquantizationmultimodal

lmstudio-community/gemma-4-E4B-it-MLX-4bit

lmstudio-community/gemma-4-E4B-it-MLX-4bit — это квантованная версия модели Google Gemma 4 E4B, специально оптимизированная для Apple Silicon с использованием фреймворка MLX. Эта мультимодальная модель поддерживает задачи «any-to-any», позволяя пользователям запускать продвинутый ИИ локально на устройствах macOS с меньшим потреблением памяти при сохранении высокой производительности. Модель поддерживается сообществом LM Studio для обеспечения бесшовной интеграции в локальные рабочие процессы ИИ.

gemma4mlxquantizationmultimodal

Google: Nano Banana Pro (Gemini 3 Pro Image)

Nano Banana Pro — это инновационная мультимодальная модель от Google, работающая на архитектуре Gemini 3 Pro. Она превосходно справляется с обработкой текста и изображений, предлагая расширенные возможности для генерации и редактирования визуального контента. Благодаря контекстному окну в 65 тыс. токенов и поддержке структурированных выводов, модель обеспечивает высокую точность и логическую согласованность, что делает её универсальным инструментом для разработчиков, создающих сложные мультимодальные рабочие процессы.

multimodalgeminigoogleimage-generation

Google: Nano Banana 2 (Gemini 3.1 Flash Image)

Gemini 3.1 Flash Image, известная как «Nano Banana 2», — это новейшая мультимодальная модель Google для высокопроизводительной генерации изображений и обработки текста. Она сочетает скорость и качество, позволяя разработчикам внедрять сложные визуальные и текстовые функции в свои приложения. Благодаря контекстному окну в 131 тыс. токенов и доступной цене, модель служит универсальным инструментом как для творческих задач, так и для анализа данных, сохраняя эффективность серии Flash при высоком качестве визуализации.

multimodalimage-generationgooglegemini

rifkybujana/IndoBERT-QA

IndoBERT-QA — это проект с открытым исходным кодом от rifkybujana, представляющий собой дообученную версию модели IndoBERT Base-Uncased. Он специально разработан для задач вопросно-ответных систем (QA) на индонезийском языке. Используя переведенный набор данных SQuAD v2.0, эта модель позволяет разработчикам и исследователям внедрять качественные функции ответов на вопросы с учетом контекста, что критически важно для развития NLP-решений для индонезийского языка.

indobertindonesiannlpquestion-answering

michaelhla/pro-1

pro-1 — это ИИ-модель от michaelhla, использующая метод Group Relative Policy Optimization (GRPO) для улучшения прогнозирования стабильности белков. Модель работает как специализированный движок рассуждений для вычислительной биологии, опираясь на энергетическую функцию Rosetta REF2015. Она объединяет возможности больших языковых моделей и структурной биологии, предоставляя исследователям инструмент для изучения дизайна белков с помощью методов обучения с подкреплением.

biologyllmsreinforcement-learningprotein-design

zs1314/OCTAMamba

OCTAMamba — это инновационный фреймворк глубокого обучения для точной сегментации изображений ангиографии оптической когерентной томографии (OCTA). Разработанная zs1314 и представленная на конференции ICASSP 2025, модель использует архитектуру Mamba (State-Space Model) для достижения превосходных результатов в анализе медицинских изображений. Сочетая эффективность моделей пространства состояний со специализированными методами обработки изображений, OCTAMamba предлагает легкое и высокоточное решение для картирования сложных сосудистых структур на снимках сетчатки.

mambamedical-imagingsegmentationdeep-learning

WeiboAI/VibeThinker

VibeThinker-1.5B — это компактная языковая модель для логических рассуждений от WeiboAI. Используя оптимизацию на основе разнообразия данных, модель демонстрирует сложные когнитивные способности, характерные для гораздо более крупных систем. Проект доказывает, что малые языковые модели (SLLM) могут достигать высоких результатов в логике, делая продвинутые вычисления доступными и эффективными даже на ограниченном аппаратном обеспечении.

llmreasoningsllmoptimization

replit/ReplitLM

ReplitLM — это семейство больших языковых моделей от Replit, созданных специально для генерации кода и задач программной инженерии. Репозиторий содержит код для инференса, конфигурационные файлы и детали реализации для развертывания этих моделей. Фокусируясь на обучении на коде, ReplitLM предоставляет разработчикам эффективных помощников, которые понимают контекст, автоматизируют написание шаблонного кода, предлагают варианты завершения и помогают в отладке сложных проектов.

aiai4codellmcoding-assistant

AIRMEC/im4MEC

im4MEC — это интерпретируемая платформа глубокого обучения, разработанная AIRMEC для классификации молекулярных подтипов рака эндометрия на основе полнокадровых гистологических изображений (WSI), окрашенных гематоксилином и эозином. Используя механизмы внимания, модель предоставляет клинически значимые данные о гистопатологических признаках, способствуя автоматизации диагностики. Проект, построенный на базе PyTorch, прошел валидацию в рамках клинических испытаний PORTEC и различных когорт, став надежным инструментом для вычислительной патологии и прецизионной онкологии.

pathologyhistologypytorchoncology

chychen/BasketballGAN

BasketballGAN — это специализированная модель глубокого обучения, разработанная chychen для симуляции реакции команд соперников на конкретные баскетбольные комбинации. Используя генеративно-состязательные сети (GAN), система преобразует тактические наброски с тренерской доски в реалистичные прогнозы движения защиты. Этот инструмент выступает в роли цифрового помощника для тренеров, позволяя тестировать эффективность стратегий и предвидеть изменения в обороне еще до выхода на площадку, объединяя традиционный коучинг с современной спортивной аналитикой.

basketballgansports-analyticsdeep-learning

mcbuehler/VariTex

VariTex — это генеративная модель, представленная на ICCV 2021, которая внедряет вариационные нейронные текстуры лиц. Используя методы глубокого обучения и нейронного рендеринга, модель синтезирует реалистичные текстуры лиц. Благодаря вариационному подходу, VariTex обеспечивает гибкое управление внешним видом, внося значительный вклад в компьютерное зрение и создание цифровых аватаров.

computer-visiondeep-learningganneural-rendering

MeetKai/functionary

Functionary от MeetKai — это специализированная языковая модель, разработанная для эффективного вызова функций и интерпретации инструментов. В отличие от универсальных LLM, она дообучена для понимания сложных определений инструментов, точного выполнения вызовов и обработки результатов для формирования связных ответов. Модель служит надежным связующим звеном между естественным языком и программным исполнением, что делает её незаменимым инструментом для разработчиков автономных AI-агентов, взаимодействующих с внешними API и данными.

agentsfunction-callingllmpython

Cohere: North Mini Code (free)

North Mini Code — первая модель из семейства «North» от Cohere, специально разработанная для агентных задач программирования. Это разреженная MoE-модель (30 млрд параметров, 3 млрд активных), обеспечивающая высокую эффективность. Благодаря поддержке контекстного окна в 256 000 токенов, разработчики могут легко анализировать огромные кодовые базы и сложную документацию. Модель доступна бесплатно через OpenRouter и представляет собой важный шаг Cohere в сторону специализированных высокопроизводительных помощников для программирования.

codingmoeagenticcohere

kyegomez/ScreenAI

ScreenAI — это специализированная мультимодальная модель (VLM), предназначенная для интерпретации сложных визуальных макетов, включая интерфейсы приложений и инфографику. Этот репозиторий от Kye Gomez предоставляет чистую PyTorch-реализацию архитектуры, описанной в исследовании Google. Модель позволяет разработчикам внедрять продвинутые возможности анализа экранов в AI-агентов, давая им способность «видеть» и анализировать цифровые интерфейсы, графики и диаграммы с высокой точностью.

vision-language-modelui-understandingpytorchcomputer-vision

SkyWorkAIGC/SkyText-Chinese-GPT3

SkyText — это большая предобученная языковая модель GPT-3 от Singularity-AI, ориентированная на китайский язык. Она предназначена для широкого спектра задач NLP, включая продолжение текстов, диалоговые системы, перевод с китайского на английский, создание креативного контента и логические рассуждения. Будучи одной из базовых моделей в китайской экосистеме ИИ, она предоставляет разработчикам гибкий инструмент для интеграции продвинутых языковых возможностей в приложения, требующие качественной обработки китайского языка.

chinese-nlpgpt3llmtext-generation

OlafenwaMoses/DeepStack_ExDark

DeepStack_ExDark — это специализированная модель компьютерного зрения от OlafenwaMoses, предназначенная для улучшения обнаружения объектов в сложных условиях низкой освещенности. Интегрируясь с сервером DeepStack AI, модель позволяет выполнять надежное наблюдение и анализ видеозаписей ночного видения. Она решает проблему систем видеонаблюдения, где стандартные модели часто не справляются с видимостью, предоставляя эффективное решение для ночного мониторинга на базе архитектур глубокого обучения.

computer-visionnight-visionobject-detectiondeepstack

Bria-AI/FIBO

FIBO от Bria-AI — это передовая open-source модель преобразования текста в изображение с уникальной JSON-архитектурой. Ориентируясь на предсказуемость и юридическую чистоту, она позволяет разработчикам создавать изображения с высокой степенью контроля. FIBO разработана для корпоративного сектора, объединяя творческие возможности ИИ с жесткими требованиями профессиональных рабочих процессов, гарантируя высокое качество и этичное происхождение контента.

text-to-imageenterprise-aigenerative-aiethical-ai

microsoft/Phi-tiny-MoE-instruct

Phi-tiny-MoE-instruct — это компактная языковая модель на архитектуре Mixture-of-Experts (MoE), разработанная Microsoft. Она создана для максимальной эффективности и скорости, используя разреженную активацию для генерации качественных ответов при минимальных требованиях к ресурсам. Модель идеально подходит для периферийных вычислений (edge computing) и сред с ограниченными ресурсами, где критически важна низкая задержка, предлагая мощную альтернативу плотным моделям за счет активации лишь части параметров.

moemicrosoftedge-aitransformers

unsloth/Qwen3.5-4B-GGUF

unsloth/Qwen3.5-4B-GGUF — это оптимизированная квантованная версия мультимодальной модели Qwen3.5-4B. Разработанная командой Unsloth, модель обеспечивает эффективную обработку изображений и текста при сохранении высокой производительности. Использование формата GGUF позволяет разработчикам запускать сложные мультимодальные задачи на обычном потребительском оборудовании с низким потреблением памяти, делая передовые технологии зрения и языка доступными для локальных приложений и граничных вычислений.

multimodalquantizationggufvision-language

nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4

NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4 — это специализированная модель генерации текста от NVIDIA. Разработанная для качественного ведения диалога, она использует передовую архитектуру для обеспечения высокой эффективности в задачах обработки естественного языка. Модель входит в семейство Nemotron, предлагая баланс между масштабом параметров и скоростью инференса. Это универсальный инструмент для разработчиков, внедряющих продвинутый разговорный ИИ в свои приложения. Модель доступна на Hugging Face, поддерживает PyTorch и использует формат safetensors для безопасной и быстрой загрузки весов.

nvidiaconversationaltransformerstext-generation

circlestone-labs/Anima

Anima от circlestone-labs — это диффузионная модель с открытым исходным кодом, дообученная на базе архитектуры NVIDIA Cosmos-Predict2-2B-Text2Image. Модель разработана для бесшовной интеграции с ComfyUI и использует передовые методы предиктивной диффузии для создания высококачественного визуального контента. С более чем 600 000 загрузок, она стала популярным выбором для создателей, ищущих эффективные инструменты синтеза изображений в экосистеме диффузионных моделей.

diffusioncomfyuitext-to-imageopen-source

Qwen/Qwen3-30B-A3B-Instruct-2507

Qwen3-30B-A3B-Instruct-2507 — это передовая open-source модель архитектуры Mixture-of-Experts (MoE) от команды Qwen. Она разработана для высокоэффективной генерации текста и обладает мощными навыками ведения диалога. Благодаря более чем 600 000 загрузок, модель стала популярным выбором для разработчиков, ищущих баланс между глубиной нейросети и вычислительной эффективностью. Модель полностью совместима с экосистемой Hugging Face и использует формат safetensors для безопасной и быстрой загрузки, что делает её доступной как для исследовательских целей, так и для промышленных AI-решений.

llmmoeqwenconversational

hmellor/tiny-random-BambaForCausalLM

hmellor/tiny-random-BambaForCausalLM — это крошечная, случайно инициализированная версия языковой модели Bamba. Созданная hmellor и размещенная на Hugging Face, эта модель служит легким инструментом тестирования для разработчиков, работающих с архитектурой Bamba. Она позволяет инженерам проверять совместимость конвейеров, логику интеграции и скрипты развертывания без необходимости загрузки огромных предобученных весов.

bambatestingtransformerssafetensors

Qwen/Qwen3-TTS-12Hz-0.6B-Base

Qwen3-TTS-12Hz-0.6B-Base — это модель синтеза речи с открытым исходным кодом от команды Qwen. Модель с 0,6 млрд параметров оптимизирована для эффективной генерации высококачественного аудио и поддерживает китайский, английский, японский и корейский языки. Благодаря передовым методам токенизации и синтеза, она обеспечивает естественное звучание, что делает её отличным выбором для разработчиков, внедряющих легкие и качественные голосовые функции в свои приложения.

ttsaudiovoice-clonemultilingual

Babelscape/wikineural-multilingual-ner

Babelscape/wikineural-multilingual-ner — это надежная модель классификации токенов для распознавания именованных сущностей (NER). Разработанная Babelscape на базе архитектуры BERT, она эффективно определяет персоналии, локации, организации и другие категории на девяти языках. Модель высоко ценится за точность в кросс-языковых задачах, позволяя разработчикам извлекать структурированные данные из мультиязычных текстов без необходимости обучения отдельных моделей для каждого языка.

nlpnermultilingualbert