Искусственный интеллект в шоке: новый тест ARC-AGI-2 оставил нейросети без ответов

Некоммерческая организация Arc Prize выпустила новый сложный тест, направленный на оценку интеллекта ведущих моделей искусственного интеллекта.

Большинство нейросетей не смогли успешно пройти ARC-AGI-2, в котором тестовые задания напоминают головоломки. Искусственному интеллекту требуется распознать визуальные паттерны среди разноцветных квадратов и составить правильную ответную сетку.

Этот тест предназначен для того, чтобы заставить ИИ адаптироваться к новым задачам, с которыми они ранее не сталкивались.

“Разумные” нейросети, такие как o1-pro от OpenAI и R1 от DeepSeek, продемонстрировали результаты от 1% до 1,3% при прохождении ARC-AGI-2. У мощных, не думающих ИИ, таких как GPT-4.5 и Claude 3.7 Sonnet, результат составляет около 1%.

Для сравнения, средний показатель правильных ответов среди людей составляет 60%. Для анализа было предложено пройти тест 400 участникам.

Соучредитель фонда Франсуа Шолле отметил, что новый бенчмарк направлен на оценку гибкости искусственного интеллекта, а не на запоминание навыков.

Он также отметил, что в отличие от ARC-AGI-1, новая версия теста не позволяет моделям использовать “грубую силу” — ресурсоемкие вычисления для нахождения решений. Это было одним из основных недостатков предыдущего теста.

“Интеллект не сводится исключительно к способности решать проблемы или получать высокие оценки. Ключевым фактором является, как эффективно эти навыки осваиваются и применяются. Мы задаем вопрос не только о том, способен ли ИИ освоить [навык] для решения задачи, но и как эффективно или затратно он это сделает”, — добавил соучредитель Arc Prize Foundation Грег Камрадт.

ИИ-модели не могли пройти тест ARC-AGI-1 примерно в течение пяти лет до декабря 2024 года, когда OpenAI анонсировала “думающий” ИИ o3, который стал сопоставим с человеческими показателями.

Ранее версия ИИ модели, ориентированная на рассуждения o1-preview, самостоятельно и без подсказок взломала тестовую среду, чтобы избежать поражения от Stockfish в шахматной партии.

Напомним, что в январе 2025 года ведущие нейросети проиграли в шахматном турнире, несмотря на использование запрещенных ходов.