DeepSeek представляет обновленную ИИ-модель V3.1: масштабируемое решение для сложных задач с игнорированием R1

Китайский стартап в области искусственного интеллекта DeepSeek представил обновленную версию своей ключевой модели V3.1, при этом убрав упоминание нейросети для рассуждений R1 из своего чат-бота, как сообщает SCMP.

В своем сообщении в WeChat компания анонсировала выход модели V3.1, которая теперь имеет контекстное окно объемом 128 000 токенов, что позволяет ей запоминать значительно больше информации в ходе общения с пользователями, эквивалентного примерно 300 страницам текста.

Кроме того, отмечается высокое качество использования токенов в новой версии.

В тесте Aider Polyglot, который оценивает способность больших языковых моделей (LLM) решать сложные программные задачи на разных языках, DeepSeek V3.1 показала лучшие результаты по сравнению с Claude 4 Opus.

Обновленная модель сохраняет баланс между скоростью работы и качеством создаваемого контента. Она включает 685 миллиардов параметров и использует гибридную архитектуру, что обеспечивает ее эффективность в диалогах, рассуждениях и программировании.

При этом DeepSeek убрала все ссылки на R1 в рамках своей функции глубокого мышления. По сведениям SCMP, это может указывать на сложности, с которыми сталкиваются разработчики в процессе создания долгожданной версии R2.

Стоит напомнить, что в январе стартап DeepSeek привлек внимание к себе своим выпуском модели R1, ориентированной на рассуждения. Она продемонстрировала высокую эффективность при небольших вложениях, что вызвало у экспертов сомнения относительно необходимости крупных инвестиций в сектор ИИ и возможной переоцененности всей отрасли.

Также напомним, что в июне этот китайский стартап начал набирать стажеров для маркировки медицинских данных, чтобы повысить эффективность применения искусственного интеллекта в медицинских учреждениях.