TheBloke/TinyLlama-1.1B-Chat-v0.3-GPTQ

🧠 AI ModelTheBloke

Высокоэффективная квантованная модель Llama с 1,1 млрд параметров, оптимизированная для работы на периферийных устройствах.

Данная модель представляет собой специализированную GPTQ-квантованную версию архитектуры TinyLlama-1.1B-Chat-v0.3. Применение 4-битного квантования позволяет радикально снизить требования к видеопамяти (VRAM) по сравнению с полноразмерной версией, делая модель доступной для запуска на устройствах, которые не справляются с более крупными языковыми моделями. Модель обучалась на масштабных наборах данных, включая SlimPajama-627B и Starcoderdata, что обеспечивает широкую базу знаний при компактном размере. Формат GPTQ обеспечивает бесшовную совместимость с популярными движками вывода, такими как AutoGPTQ и Transformers, предлагая баланс между скоростью, эффективностью и связностью текста. Это идеальный выбор для приложений, требующих генерации текста в реальном времени при жестких аппаратных ограничениях.

💡Основное

├─1,1 млрд параметров, 4-бит GPTQ
├─Оптимизировано для малого объема VRAM
└─Быстрая генерация на CPU/GPU

🎯Для

├─Разработчики Edge AI
├─Инженеры встраиваемых систем
└─Энтузиасты

🔗Ссылки

└─Репозиторий HuggingFace