Qwen2.5-14B-Instruct-AWQ

🧠 AIモデルQwen

高速・省メモリ推論向けAWQ量子化版14B Qwen2.5 Instructモデル

Qwen2.5-14B-Instruct-AWQは、Qwen2.5-14B-Instructモデルの圧縮バリアントであり、AWQ（Activation-aware Weight Quantization）技術を適用してモデルの重み精度を4ビット整数（INT4）に削減しています。この量子化アプローチは、すべてのパラメータを単純に量子化するのではなく、活性化分布に基づいて重要な重みを特定・保護することで精度を保持するよう設計されています。ベースのQwen2.5-14B-Instructモデルは140億パラメータを持ち、128Kトークンのコンテキストウィンドウ、29言語以上の多言語対応、コーディング・数学・指示追従における高い性能をサポートします。AWQ形式に量子化することで、コンシューマー向けGPUで大幅に低いVRAM要件（通常約10GB）で動作し、トークン生成のスループットを向上させます。vLLM、TGI、AutoAWQなどの推論エンジンと互換性があり、効率性が重要な本番環境デプロイメントの実用的な選択肢となります。Transformersおよびsafetensors形式を使用し、標準的なテキスト生成パイプラインをサポートします。

💡ハイライト

├─14Bモデルの4ビットAWQ量子化
├─コンシューマーGPUで約10GB VRAMで動作
├─128Kトークンのコンテキストウィンドウ対応
├─29言語以上の多言語指示チューニング
└─vLLM、TGI、AutoAWQと互換性あり

🎯対象

├─MLエンジニア
├─AI研究者
└─アプリ開発者

🔗リンク

└─Hugging Faceモデルカード