DeepSeek: DeepSeek V3

🧠 Модель ИИdeepseek

Последняя модель DeepSeek с архитектурой MoE, предобученная на 15 трлн токенов для превосходного кодирования и следования инструкциям.

DeepSeek-V3 — это последняя итерация больших языковых моделей DeepSeek, развивающая сильные стороны предыдущих версий с улучшенными возможностями следования инструкциям и кодирования. Модель использует архитектуру смеси экспертов (MoE), которая позволяет активировать только подмножество параметров на токен, повышая эффективность при сохранении высокой производительности. Предобученная на почти 15 триллионах токенов из разнообразного корпуса, DeepSeek-V3 демонстрирует высокие результаты в различных бенчмарках, включая кодирование (ELO 1160 по codecategories) и визуализацию данных (ELO 1142). Она поддерживает контекстную длину 131 072 токенов, что позволяет обрабатывать длинные документы. Модель доступна через OpenRouter с прозрачным ценообразованием ($0.20/M за ввод, $0.80/M за вывод) и предлагает настраиваемые параметры, такие как штраф за частоту, смещение логитов, максимальное количество токенов, min_p, штраф за присутствие, штраф за повторения, формат ответа и seed. DeepSeek-V3 предназначена для разработчиков и исследователей, ищущих экономичную и производительную языковую модель для задач от генерации кода до сложных рассуждений.

💡Основное

├─Архитектура MoE, предобучение на 15T токенов
├─Контекст 131K, недорогой API
└─Высокие показатели кодирования (ELO 1160)

🎯Для

├─Исследователи ИИ
├─Разработчики
└─Энтузиасты программирования

🔗Ссылки

└─Страница модели на OpenRouter