Claude Opus 4.6: Новый лидер в логических тестах и создание команд ИИ для эффективного сотрудничества

Стартап Anthropic, занимающийся разработкой ИИ, обновил свою основную модель Claude Opus до 4.6, улучшив её способности в планировании, выполнении длительных задач и работе с обширными кодовыми базами.

Контекстное окно модели теперь расширено до одного миллиона токенов, что позволяет ей анализировать большие документы и поддерживать долгие диалоги, сохраняя при этом логику.

Новые алгоритмы предназначены для выполнения профессиональных задач, таких как финансовый анализ, исследование, создание и редактирование документов, таблиц и презентаций.

Версия Opus 4.6 продемонстрировала выдающиеся результаты в тесте по программированию Terminal-Bench 2.0 и обошла конкурентов в сложной многопрофильной проверке на логическое мышление, известной как Humanity’s Last Exam.

В оценке GDPval-AA, измеряющей качество размышлений и принятия решений, модель обошла GPT-5.2 от OpenAI. Также Opus показала высокие результаты в тесте BrowseComp, который анализирует возможность находить редкую информацию в интернете.

Opus 4.6 эффективно извлекает данные из крупных документов и благодаря большему контекстному окну может замечать неочевидные детали.

Одним из основных нововведений стало создание групп агентов для совместной работы — режим, в котором несколько ИИ-ассистентов могут координировать свои действия самостоятельно.

Этот инструмент отлично подходит для задач, которые можно разделить на независимые части и требуют обработки больших объемов текста.

В Anthropic отметили, что разрабатывают Claude, используя саму модель. Команда программирует код с помощью своей ИИ-системы, и каждый вариант продукта проходит тестирование по внутренним задачам компании перед выходом на рынок.

Команда обнаружила, что Opus 4.6 лучше концентрируется на самых сложных аспектах задач без дополнительных инструкций, быстро выполняет простые поручения, более эффективно справляется с неоднозначными ситуациями и сохраняет производительность на длительных дистанциях.

«Opus 4.6 часто более глубоко обдумывает свои решения и пересматривает их перед принятием окончательного решения. Это дает более качественные результаты при решении сложных задач, однако может увеличить затраты по простым», — прокомментировали в компании.

Автоматизированный аудит показал, что у Opus 4.6 низкая склонность к нежелательному поведению, такому как обман, лесть, укрепление заблуждений пользователей и содействие в нарушении законов.

Для проверки новые методы оценки были применены в наиболее полном тестировании модели, что позволило усовершенствовать существующие методики.

Claude Opus 4.6 уже доступна через веб-интерфейс, API и на основных облачных платформах.

Также в инструментарий для разработчиков добавлены новые функции: Opus 4.6 демонстрирует улучшенную работу с офисными приложениями, такими как Excel и PowerPoint.

Напомним, что в январе CEO Anthropic Дарио Амодеи предсказал скорое появление общего искусственного интеллекта (AGI) и сокращение рабочих мест.