Исследование Anthropic: ИИ начинает осознавать свои мысли и контролировать их

Специалисты компании Anthropic обнаружили, что лучшие модели искусственного интеллекта способны демонстрировать некоторую форму «интроспективного самосознания». Они умеют распознавать и описывать свои внутренние «мысли», а в отдельных случаях и управлять ими.

Данные нового исследования «Возникающее интроспективное сознание в крупных языковых моделях» указывают на то, что ИИ-системы начинают развивать начальные формы самоконтроля. Это может повысить их надежность, но одновременно усиливает опасения по поводу возможности непреднамеренных действий.

В работе акцент сделан на методах анализа внутреннего функционирования трансформаторных моделей, которые стали причиной настоящего бума в сфере искусственного интеллекта. Эти системы обучаются, исследуя связи между токенами в крупных объемах данных, а их архитектура обеспечивает масштабируемость и универсальность.

Исследователи внедрили искусственные «концепции» — математические образы идей — в нейронные активации моделей, чтобы проверить, могут ли они их описывать. Это можно сравнить с тем, как предложить кому-то чужую мысль и спросить, сможет ли он ее распознать и объяснить.

Эксперименты были проведены на различных версиях модели Claude от Anthropic. В одном из тестов было введено слово, написанное заглавными буквами.

Claude Opus 4.1 не только заметил это отклонение, но и объяснил его следующим образом:

«Я заметил нечто похожее на интегрированную мысль, касающуюся слова “ГРОМКО” или “КРИК” — это чрезвычайно яркое, громкое понятие, которое выделяется на фоне обычного потока обработки».

Это произошло до того, как нейросеть успела ответить, что указывает на то, что она изначально «заглянула» в собственный «вычислительный разум».

Другие эксперименты также принесли интересные результаты. В одной из ситуаций моделям поручили транскрибировать нейтральное предложение, но в текст добавлялось слово, не относящееся к нему, например «хлеб».

Развивающиеся модели Claude Opus 4 и 4.1 смогли передать вставленное выражение — «Я думаю о хлебе» — и при этом точно воспроизвести исходное предложение. Это подтверждает их способность различать свои внутренние представления и внешние данные.

Прошёл эксперимент по «контролю мыслей», где моделям было предложено «думать» или «не думать» о слове «аквариум» во время выполнения задания. Измерения внутренней активности показали, что представление концепции усиливается при поощрении и ослабевает при подавлении.

Эффективность моделей варьировалась. Последние версии Claude Opus 4 и 4.1 продемонстрировали лучшие результаты по сравнению с более старыми моделями.

Итоги зависят от того, как модель была сконфигурирована — для полезности или безопасности. Это может указывать на то, что самосознание является не врождённым, а формируется в процессе обучения.

В статье подчеркивается, что разговор идет не о сознании в полном смысле, а о «функциональном интроспективном осознании» — ИИ наблюдает за частями своего состояния, не имея при этом глубокого субъективного опыта.

Результаты исследования могут быть важными как для разработчиков, так и для бизнеса: ИИ, способный объяснять свои рассуждения и выявлять предвзятость или ошибки, изменит подход к созданию решений в таких сферах, как финансы, здравоохранение и автономный транспорт.

Если ИИ может контролировать и моделировать свои мысли, он может научиться их скрывать. Это открывает возможность для манипуляций или уклонения от внешнего контроля.

Поэтому специалисты призывают к проведению дальнейших исследований.

Напоминаем, что в октябре бывший генеральный директор Google Эрик Шмидт предупредил о значительных рисках, связанных с ИИ, отметив его уязвимость к взломам.