Qwen2.5-14B-Instruct-AWQ
🧠 AI 模型Qwen
AWQ量化版14B Qwen2.5指令模型,推理更快、显存更省。
Qwen2.5-14B-Instruct-AWQ 是 Qwen2.5-14B-Instruct 的压缩变体,通过 AWQ(感知激活权重量化)技术将模型权重精度降至 4-bit 整数(INT4)。该量化方法通过基于激活分布识别并保护显著权重来保持精度,而非简单地对所有参数进行量化。基础模型 Qwen2.5-14B-Instruct 拥有 140 亿参数,支持 128K token 上下文窗口、多语言能力(29+ 种语言),并在编码、数学和指令跟随方面表现强劲。量化至 AWQ 格式后,该变体可在消费级 GPU 上运行,显存需求显著降低(通常约 10GB 即可),从而实现更快的 token 生成吞吐量。它兼容 vLLM、TGI 和 AutoAWQ 等推理引擎,是追求效率的生产部署的实用选择。该模型使用 Transformers 和 safetensors 格式,支持标准文本生成管道。
💡核心亮点
- ├─14B模型的4-bit AWQ量化版本
- ├─消费级GPU仅需约10GB显存
- ├─支持128K token上下文窗口
- ├─支持29+种语言的多语言指令调优
- └─兼容vLLM、TGI、AutoAWQ推理引擎
🎯适用人群
- ├─机器学习工程师
- ├─AI 研究人员
- └─应用开发者