Новый тест ARC-AGI-2: Революция в измерении интеллекта искусственного интеллекта

Опубликовано: March 25, 2025

Arc Prize Foundation, некоммерческая организация, соучредителем которой является известный эксперт в области искусственного интеллекта Франсуа Шолле, в понедельник обнародовала на своем блоге информацию о создании нового сложного теста для оценки общего интеллекта передовых ИИ-моделей. На текущий момент тест под названием ARC‑AGI-2 поставил в затруднительное положение большинство существующих моделей.

ИИ-модели, использующие “рассуждение”, такие как o1-pro от OpenAI и R1 от DeepSeek, получили результаты в диапазоне от 1% до 1,3% в тесте ARC‑AGI-2, согласно данным рейтинга Arc Prize. Мощные модели, которые не опираются на “рассуждение”, такие как GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, показали приблизительно 1%.

Задачи в тестах ARC‑AGI представляют собой головоломки, где ИИ должен выявлять визуальные закономерности в сериях квадратов разных цветов и формировать правильную “ответную” сетку. Эти задания были созданы для того, чтобы заставить ИИ адаптироваться к новым проблемам, с которыми он ранее не сталкивался.

Фонд Arc Prize привлек более 400 человек, чтобы пройти тест ARC‑AGI-2, с целью установить базовые показатели для человеческих результатов. В среднем “группа” участников ответила правильно на 60% вопросов, что значительно выше показателей любой из моделей.

В сообщении в X Шолле отметил, что ARC‑AGI-2 более эффективно оценивает настоящий интеллект ИИ, чем его предшественник ARC‑AGI-1. Тесты от Arc Prize направлены на оценку способности ИИ осваивать новые навыки, которые выходят за рамки данных обучения.

Шолле подчеркнул, что, в отличие от ARC‑AGI-1, новый тест исключает возможность использования “грубой силы” — больших вычислительных мощностей — для нахождения решений. Ранее он признавал, что это было серьезным ограничением ARC‑AGI-1.

Чтобы устранить недостатки первого теста, в ARC‑AGI-2 была добавлена новая метрика: эффективность. Тест также требует от моделей интерпретации паттернов в реальном времени, без зависимости от запоминания.

“Интеллект оценивается не только по умению решать задачи или получать высокие баллы, — отметил соучредитель Arc Prize Foundation Грег Камрадт в публикации в блоге. — Важнейшим аспектом является эффективность, с которой эти навыки осваиваются и применяются. Основной вопрос заключается не только в том, ‘может ли ИИ освоить навык для решения задачи?’, но и в ‘с какой эффективностью или затратами?””

ARC‑AGI-1 оставался непревзойденным на протяжении около пяти лет, пока в декабре 2024 года OpenAI не представила свою усовершенствованную модель логического мышления o3, которая обошла все остальные ИИ-модели и достигла результатов на уровне человека. Однако, как подчеркивалось в тот момент, увеличение эффективности o3 по сравнению с ARC‑AGI-1 было связано с высокими затратами.

Первая версия модели o3 от OpenAI — o3 (low), которая первой преодолела новые рубежи в ARC‑AGI-1 с результатом 75,7%, в тесте ARC‑AGI-2 заработала лишь 4%, использовав вычислительные ресурсы стоимостью 200 долларов за задание.

Появление ARC‑AGI-2 совпадает с призывами многих представителей технологической отрасли к созданию новых, более точных стандартов для оценки прогресса в области ИИ. Соучредитель Hugging Face Томас Вольф недавно упомянул TechCrunch, что в ИИ-индустрии наблюдается дефицит тестов для оценки ключевых характеристик так называемого AGI, включая креативность.

В дополнение к новому стандарту Arc Prize Foundation объявила о конкурсе Arc Prize 2025, в рамках которого разработчики должны достижения 85-процентной точности в тесте ARC‑AGI-2, затратив всего 0,42 доллара на задачу.

Источник