ibm-research/PowerMoE-3b
🧠 AI Модельibm-research
Эффективная 3B модель Mixture-of-Experts от IBM Research на архитектуре Granite для быстрой генерации текста.
PowerMoE-3b — это языковая модель с открытым исходным кодом на основе Mixture-of-Experts, созданная IBM Research на фундаменте архитектуры Granite. Модель использует разреженную конструкцию MoE, в которой для каждого токена активируется лишь часть параметров экспертов, что обеспечивает значительно более эффективный инференс по сравнению с плотными моделями аналогичного общего числа параметров. Ключевые особенности: 3B общее число параметров с разреженной маршрутизацией экспертов, полная совместимость с библиотекой HuggingFace transformers, поддержка safetensors и распространение под разрешительной лицензией Apache 2.0. Модель подробно описана в статье arXiv:2408.13359, где исследуются новые подходы к маршрутизации MoE и эффективности обучения. С более чем 1 миллионом загрузок на HuggingFace, PowerMoE-3b продемонстрировала сильное принятие сообществом для задач генерации текста, требующих баланса между возможностями и вычислительной эффективностью.
💡Основное
- ├─3B разреженный MoE на Granite
- ├─Apache 2.0, полностью открытый код
- ├─1M+ загрузок на HuggingFace
- └─Эффективная маршрутизация экспертов
🎯Для
- ├─Исследователи ИИ
- ├─NLP-разработчики
- └─Инженеры корпоративного ML