Qwen3.5-122B-A10B
🧠 AI模型qwen
混合注意力与稀疏MoE视觉语言模型,总参数122B,激活10B。
Qwen3.5-122B-A10B是一个原生视觉语言模型,采用融合线性注意力与稀疏混合专家的混合架构。线性注意力机制将二次复杂度降为线性,MoE层每个token仅激活122B总参数中的10B(A10B)。该设计实现了更高的推理效率和吞吐量。模型支持多模态输入:文本、图像和视频,输出文本。上下文长度262,144个token,输入价格每百万token $0.26,输出价格每百万token $2.08。额外推理特性包括频率惩罚、logit偏置、logprobs、min_p、存在惩罚和推理。通过OpenRouter提供服务,便于开发者和研究人员使用。
💡核心亮点
- ├─总122B参数,每token激活10B
- ├─262k token上下文长度
- └─混合线性注意力 + 稀疏MoE
🎯适用人群
- ├─AI研究人员
- ├─机器学习工程师
- └─企业开发者