DeepSeek представляет новую ИИ-модель R1, работающую на одном GPU: Прорыв в дистилляции знаний и вопросы свободы слова

Опубликовано: June 1, 2025

Китайская лаборатория искусственного интеллекта DeepSeek представила обновление своей ИИ-модели R1, способной к «рассуждениям». Теперь доступна «дистиллированная» версия, способная функционировать на одной видеокарте.

Новая модель DeepSeek-R1-0528-Qwen3-8B разработана на основе Qwen3-8B, которая была анонсирована компанией Alibaba в мае. По указанным данным, данная модель демонстрирует большую эффективность по сравнению с Gemini 2.5 Flash от Google при решении сложных математических задач в сборнике AIME 2025.

«Дистиллированная» версия представляет собой упрощенный и более быстрый вариант оригинальной большой модели машинного обучения, полученный через метод дистилляции знаний. Такие нейросети обычно менее производительны, но и менее требовательны к вычислительным ресурсам.

Согласно информации от NodeShift, для функционирования Qwen3-8B требуется графический процессор с 40-80 Гбайт видеопамяти, и она может работать на одном GPU Nvidia H100.

DeepSeek использовала обновленную версию R1 и Qwen3-8B для обучения и настройки своей новой модели DeepSeek-R1-0528-Qwen3-8B.

Компания утверждает, что новая версия нейросети R1 включает небольшие обновления и доступна на платформе Hugging Face.

Разработчик с никнеймом xlr8harder отметил, что модель проявляет осторожность при обсуждении спорных тем, особенно тех, что касаются китайского правительства.

«DeepSeek можно подвергать критике за этот релиз: данная модель представляет собой значительный шаг назад в вопросах свободы слова. В то же время, открытый исходный код с разрешительной лицензией позволяет сообществу решать эту проблему», — добавил он.

В одном из случаев модель отказалась приводить доводы против нарушения прав человека в интернированных лагерях в Синьцзяне. Она подтвердила сам факт, но избегала прямой критики в адрес китайского правительства.

«Интересно, хотя и не удивительно, что модель может привести лагеря как пример нарушения прав человека, но отрицает это, когда её спрашивают напрямую», — отметил xlr8harder.

Также стоит напомнить, что в апреле DeepSeek опубликовала новую математическую ИИ-модель под названием Prover.