TheBloke/TinyLlama-1.1B-Chat-v0.3-GPTQ
🧠 AI ModelTheBloke
Высокоэффективная квантованная модель Llama с 1,1 млрд параметров, оптимизированная для работы на периферийных устройствах.
Данная модель представляет собой специализированную GPTQ-квантованную версию архитектуры TinyLlama-1.1B-Chat-v0.3. Применение 4-битного квантования позволяет радикально снизить требования к видеопамяти (VRAM) по сравнению с полноразмерной версией, делая модель доступной для запуска на устройствах, которые не справляются с более крупными языковыми моделями. Модель обучалась на масштабных наборах данных, включая SlimPajama-627B и Starcoderdata, что обеспечивает широкую базу знаний при компактном размере. Формат GPTQ обеспечивает бесшовную совместимость с популярными движками вывода, такими как AutoGPTQ и Transformers, предлагая баланс между скоростью, эффективностью и связностью текста. Это идеальный выбор для приложений, требующих генерации текста в реальном времени при жестких аппаратных ограничениях.
💡Основное
- ├─1,1 млрд параметров, 4-бит GPTQ
- ├─Оптимизировано для малого объема VRAM
- └─Быстрая генерация на CPU/GPU
🎯Для
- ├─Разработчики Edge AI
- ├─Инженеры встраиваемых систем
- └─Энтузиасты