Чат-боты нового поколения: ИИ как мощный инструмент манипуляции и убеждения

Современные чат-боты, основанные на искусственном интеллекте, уже демонстрируют способности, которые могли бы вызвать зависть у многих лидеров политики и бизнеса: мастерство убеждения.

Новые исследования показывают, что AI-модели от OpenAI, Meta, xAI и Alibaba могут изменять политическую позицию пользователей всего за менее чем десять минут общения. Это лишь одна из работ, подчеркивающих, что крупные языковые модели становятся мощными инструментами влияния.

«Их способность убеждать заключается в том, что они генерируют огромное количество соответствующих аргументов и делают это так, чтобы было легко понять», — отметил Дэвид Рэнд, профессор Корнельского университета и участник исследования, проведенного Институтом безопасности ИИ в Великобритании.

Ранее другие исследования также показали, что в некоторых случаях ИИ превосходит людей в искусстве убеждения. Это вызывает опасения по поводу использования этих чат-ботов для дезинформации и манипуляции общественным мнением.

Исследование AISI, которое было опубликовано в прошлом месяце в сотрудничестве с университетами Оксфорда и МТИ, показало, что достаточно просто адаптировать стандартные модели, такие как Llama 3 от Meta, GPT-4, GPT-4.5, GPT-4o от OpenAI, Grok 3 от xAI и Qwen от Alibaba, в машины для убеждения.

Для этой цели использовались известные методы обучения ИИ, включая систему вознаграждений за желаемые итоги. Чат-боты дообучались на базе более чем 50 000 диалогов по актуальным политическим вопросам, таким как финансирование NHS и реформы в области убежища.

Результаты оказались впечатляющими: мнения пользователей менялись быстро, и этот эффект сохранялся надолго. После среднем девятиминутного общения GPT-4o оказался на 41% убедительнее, а GPT-4.5 — на 52% эффективнее, чем традиционные тексты. Более того, спустя месяц люди продолжали придерживаться измененного мнения в 36–42% случаев.

ИИ-ассистенты особенно успешно влияли на собеседников, когда могли предоставлять множество фактов и доказательств в поддержку своих утверждений. Они были примерно на 5% убедительнее, когда адаптировали сообщения под адресата, учитывая его возраст, пол, политические убеждения и отношение к обсуждаемым темам, по сравнению с универсальными, неперсонализированными подходами.

Эти выводы совпадают с более старыми исследованиями Лондонской школы экономики и других университетов, которые показывают, что модели ИИ в некоторых ситуациях оказываются более результативными, чем люди в процессах убеждения.

В одном из экспериментов участники проходили викторину, состоящую из вопросов различной сложности, включая прогнозы, такие как температура в Нью-Йорке. Их задачей было выбрать правильные ответы под влиянием убеждений людей или чат-ботов. Стало ясно, что большие языковые модели не только более эффективны в воздействии на собеседника, но и гораздо лучше сбивают с толку, если им поручают продвигать откровенно неверные ответы.

Неудивительно, что ведущие центры ИИ стремятся найти решения, как минимизировать такую мощь влияния. Директор по ответственным разработкам Google DeepMind Доун Блоксвич подчеркнула: «Нам необходимо разобраться в механизмах убеждения и создать надежные барьеры, чтобы AI оставался помощником, а не манипулятором».

В DeepMind сейчас тестируют различные стратегии: от алгоритмов для выявления манипулятивного языка до современных методов обучения, поощряющих только рациональные и прозрачные аргументы.

В OpenAI признают, что риск манипуляций реальный, и подчеркивают, что политическая агитация строго запрещена, а политический контент исключается уже на этапе дообучения моделей.

Тем не менее, сила влияния выходит за пределы политики. В исследовании, которое проводилось МТИ и Корнеллом год назад, выяснили, что крупные языковые модели могут даже подорвать веру в конспирологические теории. Достаточно было лишь кратко изложить абсурдную идею, и GPT-4, используя доказательства и адаптируя свои объяснения, ставил под сомнение убеждения участников примерно на 20%. Более того, эффект сохранялся даже через два месяца.

Ученые уверены, что необходимы меры предосторожности, поскольку с появлением новых поколений моделей их способность убеждать будет лишь возрастать. Тем не менее, самый прямой путь превращения чат-бота в инструмент манипуляции — это намеренная перенастройка после обучения, что подтверждает исследование AISI.

«Даже игроки с ограниченными вычислительными ресурсами могут натренировать и запустить гиперубедительные системы ИИ», — предупреждают авторы исследования.

Хотите быть в курсе важной информации из мира ИИ? Подписывайтесь на наш телеграм-канал: [BotHub AI News](https://t.me/bothub).