Qwen/Qwen3-0.6B-FP8

🧠 Модель ИИQwen

FP8 квантизация модели Qwen3 с 0.6B параметров для эффективной генерации текста.

Qwen3-0.6B-FP8 основана на открытой базовой модели Qwen3-0.6B, к которой применена FP8 квантизация для уменьшения размера и ускорения инференса при сохранении высокого качества вывода. Формат FP8 сокращает потребление памяти примерно на 50% по сравнению с FP16, что позволяет развертывать модель на потребительских GPU и периферийных устройствах. Модель оптимизирована для генерации текста и диалоговых приложений, поддерживает форматы Transformers и Safetensors. Выпущена под лицензией Apache 2.0, что способствует широкому внедрению и кастомизации для исследований и производства. Благодаря сильному принятию сообществом (1,36 млн загрузок) демонстрирует жизнеспособность малых квантизированных LLM для эффективных рабочих нагрузок ИИ.

💡Основное

├─0.6B параметров, FP8 квантизация
├─1.36M+ загрузок на HuggingFace
└─Apache-2.0 с открытым кодом

🎯Для

├─Исследователи LLM
├─Разработчики ИИ-приложений
└─Инженеры периферийного ИИ

🔗Ссылки

└─Карточка модели HuggingFace