Qwen2.5-14B-Instruct-AWQ

🧠 AI 模型Qwen

AWQ量化版14B Qwen2.5指令模型，推理更快、显存更省。

Qwen2.5-14B-Instruct-AWQ 是 Qwen2.5-14B-Instruct 的压缩变体，通过 AWQ（感知激活权重量化）技术将模型权重精度降至 4-bit 整数（INT4）。该量化方法通过基于激活分布识别并保护显著权重来保持精度，而非简单地对所有参数进行量化。基础模型 Qwen2.5-14B-Instruct 拥有 140 亿参数，支持 128K token 上下文窗口、多语言能力（29+ 种语言），并在编码、数学和指令跟随方面表现强劲。量化至 AWQ 格式后，该变体可在消费级 GPU 上运行，显存需求显著降低（通常约 10GB 即可），从而实现更快的 token 生成吞吐量。它兼容 vLLM、TGI 和 AutoAWQ 等推理引擎，是追求效率的生产部署的实用选择。该模型使用 Transformers 和 safetensors 格式，支持标准文本生成管道。

💡核心亮点

├─14B模型的4-bit AWQ量化版本
├─消费级GPU仅需约10GB显存
├─支持128K token上下文窗口
├─支持29+种语言的多语言指令调优
└─兼容vLLM、TGI、AutoAWQ推理引擎

🎯适用人群

├─机器学习工程师
├─AI 研究人员
└─应用开发者

🔗链接

└─Hugging Face 模型页面