QwQ-32B от Alibaba: новый открытый AI-модель, бросающая вызов DeepSeek с повышенной эффективностью

Команда Qwen, представляющая собой подразделение крупного китайского интернет-гиганта Alibaba, анонсировала свою новую модель рассуждений QwQ-32B с открытым исходным кодом. Эта модель, обладающая 32 миллиардами параметров, предназначена для повышения эффективности решения сложных задач с использованием обучения с подкреплением (RL).

QwQ-32B доступна в формате open-weight на платформах Hugging Face и ModelScope под лицензией Apache 2.0. Это открывает возможности для ее коммерческого и исследовательского применения, позволяя бизнесам использовать модель для своих продуктов и приложений, даже если они взимают с клиентов оплату за использование.

Напомним, что предшествующая версия, просто называемая QwQ, была объявлена компанией Alibaba в ноябре 2024 года как открытый проект, нацеленный на соперничество с моделью o1-preview от OpenAI.

Первая версия QwQ также имела 32 миллиарда параметров и позволяла обрабатывать контекст длиной в 32 000 токенов. Alibaba подчеркивала, что данная модель превосходит o1-preview по математическим тестам, таким как AIME и MATH, а также по задачам научного рассуждения, таким как GPQA.

Тем не менее, ранние версии QwQ встречали трудности с некоторыми программными бенчмарками, такими как LiveCodeBench, где модели OpenAI оставались лидерами. Кроме того, как и многие новинки в сфере рассуждений, QwQ сталкивалась с проблемами с использованием нескольких языков и нехваткой логики в некоторых выводах.

Решение Alibaba выпустить модель под лицензией Apache 2.0 дало разработчикам и компаниям широкие возможности для модификации и коммерциализации, что выгодно отличает ее от проприетарных альтернатив, таких как o1 от OpenAI.

С момента выхода первой версии QwQ мир ИИ стремительно изменялся. Ограничения традиционных LLM стали более явными, поскольку законы масштабирования показали уменьшающуюся отдачу от повышения производительности.

Этот переход вызвал интерес к большим моделям рассуждений (LRM) — новому направлению в искусственном интеллекте, которое использует рассуждение и самоанализ для повышения точности результатов. К таким моделям относятся серия o3 от OpenAI и успешный DeepSeek-R1 от китайской лаборатории DeepSeek, связанной с финтех-компанией High-Flyer Capital Management.

Как указано в новом отчете компании SimilarWeb, занимающейся анализом веб-трафика, с момента запуска модели R1 в январе 2024 года DeepSeek значительно вырос в популярности и стал самым посещаемым ресурсом по предоставлению моделей ИИ, обогнав OpenAI.

Новая модель от Alibaba, QwQ-32B, развивает предыдущие достижения, интегрируя методы RL и углубленный самоанализ, тем самым укрепляя свои позиции в быстро развивающейся области ИИ, ориентированного на рассуждения.

Контекст новой модели был увеличен до 131 000 токенов, что сопоставимо с 128 000 токенов моделей OpenAI, хотя контекст Google Gemini 2.0 по-прежнему превосходит их, достигая 2 миллионов токенов. Напомним, что контекст — это объем токенов, который модель может обрабатывать за раз, и более высокое значение означает наличие большего объема информации. 131 000 токенов эквивалентны примерно 300 страницам текста.

Традиционные модели, оптимизированные под инструкции, зачастую испытывают трудности с решением сложных задач на рассуждение, но исследования команды Qwen демонстрируют, что применение RL может значительно улучшить такие навыки.

QwQ-32B развивает этот подход, используя многоступенчатую стратегию обучения с подкреплением для улучшения математических рассуждений, навыков общения и общей способности к решению проблем.

Модель была протестирована на фоне других конкурирующих систем, таких как DeepSeek-R1, o1-mini и DeepSeek-R1-Distilled-Qwen-32B, и продемонстрировала конкурентоспособные показатели, несмотря на то, что некоторые из этих моделей обладают большим числом параметров.

Если вы хотите протестировать модель, переходите на BotHub по предоставленной ссылке.

Например, в то время как DeepSeek-R1 функционирует с 671 миллиардом параметров (из которых активно задействовано 37 миллиардов), QwQ-32B показывает сопоставимые результаты при значительно меньших затратах — обычно требует лишь 24 ГБ видеопамяти на графическом процессоре, в отличие от более чем 1500 ГБ, необходимых для полноценной работы DeepSeek R1 (16 графических процессоров Nvidia A100), что подчеркивает эффективность подхода Qwen к обучению с подкреплением.

Процесс RL для QwQ-32B был реализован в два этапа:

1. **Акцент на математике и программировании:** модель обучалась с использованием проверки точности для математических задач и сервера выполнения для программирования. Такой подход гарантировал, что сгенерированные ответы проверялись на корректность перед их использованием.

2. **Улучшение общих навыков:** на втором этапе модель проходила обучение на основе вознаграждений при помощи общих моделей вознаграждения и верификаторов на основе правил. Этот этап позволил улучшить следование инструкциям, соответствие человеческим ожиданиям и рассуждения без ущерба для математических и программных навыков.

С помощью QwQ-32B команда Qwen ставит RL в центр развития следующих поколений ИИ, демонстрируя, что масштабирование может привести к созданию эффективных и высоко производительных систем для рассуждений.

[Источник](https://venturebeat.com/ai/alibabas-new-open-source-model-qwq-32b-matches-deepseek-r1-with-way-smaller-compute-requirements/)