ibm-research/PowerMoE-3b

🧠 AI Модельibm-research

Эффективная 3B модель Mixture-of-Experts от IBM Research на архитектуре Granite для быстрой генерации текста.

PowerMoE-3b — это языковая модель с открытым исходным кодом на основе Mixture-of-Experts, созданная IBM Research на фундаменте архитектуры Granite. Модель использует разреженную конструкцию MoE, в которой для каждого токена активируется лишь часть параметров экспертов, что обеспечивает значительно более эффективный инференс по сравнению с плотными моделями аналогичного общего числа параметров. Ключевые особенности: 3B общее число параметров с разреженной маршрутизацией экспертов, полная совместимость с библиотекой HuggingFace transformers, поддержка safetensors и распространение под разрешительной лицензией Apache 2.0. Модель подробно описана в статье arXiv:2408.13359, где исследуются новые подходы к маршрутизации MoE и эффективности обучения. С более чем 1 миллионом загрузок на HuggingFace, PowerMoE-3b продемонстрировала сильное принятие сообществом для задач генерации текста, требующих баланса между возможностями и вычислительной эффективностью.

💡Основное

├─3B разреженный MoE на Granite
├─Apache 2.0, полностью открытый код
├─1M+ загрузок на HuggingFace
└─Эффективная маршрутизация экспертов

🎯Для

├─Исследователи ИИ
├─NLP-разработчики
└─Инженеры корпоративного ML

🔗Ссылки

├─Модель на HuggingFace
└─Научная статья