Anthropic тестирует Claude 3.7 Sonnet: как искусственный интеллект преодолел испытания в Pokémon Red

Компания Anthropic решила протестировать свою новую модель искусственного интеллекта с помощью игры Pokémon.

В сообщении, опубликованном в понедельник, Anthropic сообщила о том, что их последняя версия AI, Claude 3.7 Sonnet, была протестирована на оригинальной версии Pokémon Red для Game Boy. Модель была оснащена базовыми функциями памяти, возможностью вводить пиксели на экран и выполнять команды для взаимодействия с кнопками и перемещения в игре, что позволило ей непрерывно играть в Pokémon.

Особенностью Claude 3.7 Sonnet является его возможность «расширенного мышления». Подобно o3-mini от OpenAI и R1 от DeepSeek, эта модель способна «размышлять» над сложными задачами, используя более сложные вычисления и увеличенное время обработки.

Эта способность оказалась полезной в Pokémon Red.

В отличие от своей предшественницы, Claude 3.7 Sonnet успешно завершила испытания и одержала победу над тремя руководителями покемонов, получив их значки.

Неясно, сколько вычислительных ресурсов и времени потребовалось модели Claude 3.7 Sonnet для достижения этого результата. Anthropic лишь отметила, что модель выполнила 35 тысяч действий, чтобы добраться до последнего уровня, Surge.

Несомненно, вскоре какой-то инициативный разработчик сможет использовать эти данные.

Хотя Pokémon Red и является в первую очередь развлекательным проектом, существует долгая традиция использования игр для оценки ИИ. Только в последние месяцы появилось множество новых возможностей и платформ для тестирования игровых навыков моделей в таких играх, как Street Fighter и Pictionary.

Источник