Voxtral Small 24B 2507

🧠 AI 模型mistralai

24B音频文本模型，顶尖语音转录理解，基于Mistral Small 3。

Voxtral Small 24B基于Mistral Small 3架构，并增强了最先进的音频理解能力。它支持语音和文本的无缝处理，可完成实时转录、语言翻译和基于音频的推理等任务。模型拥有32,000 token的上下文窗口、结构化输出以及标准推理控制（频率/惩罚、温度、随机种子）。它接受多模态输入（文本、音频、文件）并生成文本输出。定价为每百万输入token $0.10、每百万输出token $0.30，为音频中心化的工作流提供了高性价比解决方案，同时在文本基准上保持高精度。

💡核心亮点

├─24B参数
├─音频输入+文本输出
└─32K上下文窗口

🎯适用人群

├─AI开发者
├─语音识别研究员
└─构建语音界面的产品团队

🔗链接

└─OpenRouter 模型页面