DeepSeek: R1 Distill Llama 70B
🧠 AI 模型deepseek
源自DeepSeek R1的蒸馏版70B模型,以高性价比实现高级推理。
DeepSeek R1 Distill Llama 70B 通过将更大规模 DeepSeek R1 模型蒸馏到 Llama-3.3-70B-Instruct 架构上。这产生了更高效的模型,同时保留了强大的推理能力。关键特性包括支持频率惩罚和存在惩罚、推理模式、最大token数、种子控制和停止token。该模型针对需要复杂推理的文本生成任务进行了优化,如数学、逻辑和代码生成。拥有128,000个token的上下文长度,可处理长文档和扩展对话。在 OpenRouter 上可用,为寻求高质量推理而又不想运行全规模模型开销的开发者和研究人员提供了高性价比的解决方案。