Qwen/Qwen3-4B-Instruct-2507
🧠 AI 模型Qwen
通义千问4B参数指令模型,推理和多语言任务性能顶尖。
Qwen3-4B-Instruct-2507是Qwen3系列的一部分,通过先进的强化学习技术训练,增强指令遵循、推理和安全性。它采用分组查询注意力(GQA)实现高效推理,支持最多32k词元的上下文长度,并内置工具调用和多轮对话支持。尽管参数规模仅为4B,但在MMLU、GSM8K和HumanEval等主要基准上取得了与7B参数模型相当的结果。该模型完全以Apache 2.0许可证开源,适用于研究和商业用途,专为消费级硬件部署优化,可通过Transformers、vLLM或Hugging Face推理端点运行。