Qwen/Qwen3-8B-AWQ
🧠 AI 模型Qwen
AWQ 量化版 8B Qwen3 模型,消费级 GPU 上高效快速推理。
Qwen3-8B-AWQ 是 Qwen3-8B 稠密语言模型的 AWQ 量化变体,通过激活感知权重量化将原始 80 亿参数模型压缩为更低精度格式(通常为 4-bit 权重)。该量化技术通过基于激活分布分析保护关键权重来保持精度,使其比基础模型显著更加节省内存。模型支持文本生成和对话任务,继承了 Qwen3 在推理、指令遵循和多语言理解方面的能力。AWQ 量化使其能够在仅有 6-8GB 显存消费级 GPU 上运行,大幅降低了部署硬件门槛。模型基于 transformers 和 safetensors 框架构建,以 Apache 2.0 许可证发布。
💡核心亮点
- ├─8B 参数,AWQ 4-bit 量化
- ├─消费级 GPU 可运行(6-8GB 显存)
- ├─Apache 2.0 开源许可证
- └─Hugging Face 下载量超 100 万
🎯适用人群
- ├─AI/ML 工程师
- ├─LLM 应用开发者
- └─边缘部署工程师