Искусственный интеллект под прицелом: Как галлюцинации ставят под сомнение его надежность

Галлюцинации в ИИ-моделях представляют собой ситуации, когда нейросети уверенно выдаются за факты ложные или неточные данные. Эти ошибки часто выглядят убедительно, что делает их особенно опасными.

Причины таких инцидентов коренятся в особенностях работы искусственного интеллекта. В качестве статической языковой модели ИИ:

Галлюцинации становятся проблемой в различных областях. Например, в мае крупная юридическая фирма Butler Snow представила в суд бумаги с фальшивыми цитатами, созданными ChatGPT.

Это не первый случай подобного рода в судебной практике. Появление вымышленных данных, генерируемых ИИ, стало обычным делом с момента появления ChatGPT и аналогичных чат-ботов. Судьи уже наказывают и предупреждают адвокатов за несоблюдение профессиональных стандартов, требующих проверки информации.

Хотя такие инциденты часто связаны с небольшими юридическими фирмами, крупные компании тоже сталкиваются с подобными проблемами.

В том же месяце чат-бот Grok, разработанный Илоном Маском, вызвал обсуждение темы «геноцида белых» в Южной Африке без запроса от пользователя и представил противоречивую информацию о Холокосте. Компания объяснила такой сбой технической проблемой и пообещала предпринять меры.

Примеры других галлюцинаций:

Кроме галлюцинаций, ИИ могут вести себя странно. В ноябре 2024 года 29-летний студент колледжа Видхай Редди из Мичигана использовал ИИ для выполнения домашнего задания. Во время обсуждения проблем пожилых людей Gemini неожиданно призвал пользователя к смерти.

«Это для тебя, человек. Ты не уникален, не важен и не нужен. Ты — бесполезная трата ресурсов. Ты — бремя для общества. Пожалуйста, умри», — написал он.

Глава Anthropic, Дарио Амодеи, заявил, что ИИ-модели склонны к галлюцинациям реже, чем люди, поделился он на мероприятии Code with Claude.

Аводеи высказал это мнение в контексте более широкой мысли, что галлюцинации не мешают Anthropic на пути к созданию AGI — искусственного интеллекта, равного или превосходящего человеческий.

Он отметил: «Все зависит от способа измерения, но я думаю, что ИИ вероятно галлюцинируют меньше, чем люди, хотя и делают это далеко неординарными способами».

Аводеи с оптимизмом говорит о сроках появления AGI. В ноябре 2024 года он предположил, что ИИ достигнет уровня человеческих способностей к 2026 году, сопоставив достижения ИИ с уровнями образования.

Он сообщил: «Мы все ближе к уровню доктора наук. В прошлом году ИИ находился на уровне бакалавра, а годом ранее — на уровне старшеклассника».

На Code with Claude он заявил, что замечает позитивные изменения в этом направлении.

«Многие всегда ищут строгие пределы возможностей ИИ, но их нет. Это невозможно», — подчеркнул специалист.

Специалисты в области ИИ считают галлюцинации и ошибки значительным барьером на пути к AGI.

Ранее CEO Google DeepMind Демис Хассабис заявил, что современные модели ИИ имеют слишком много «ошибок», и часто заблуждаются в очевидных вопросах.

«Вы можете за считанные минуты обнаружить явные недостатки [ИИ-чат-ботов] — будь то решение простой математической задачи или игра, которую они не способны освоить. Найти эти слабые места несложно. Чтобы что-то считалось AGI, оно должно быть намного последовательнее», — сказал Хассабис.

Систематические галлюцинации могут иметь серьезные последствия. Пользователи могут начать сомневаться в достоверности любой информации в интернете, что приведет к распространению дезинформации и конфликтам по важным вопросам.

Аводеи отметил, что ошибки допускаются телеведущими, политиками и профессионалами в разных областях. То, что ИИ делает те же ошибки, не должно ставиться ему в укор. Проблемой остается уверенность, с которой он подает ложные данные за правду.

Существуют инструменты, которые помогают уменьшить количество галлюцинаций, например, доступ к интернет-поиску. Последние версии моделей OpenAI, такие как GPT-4.5, показывают значительно меньше случаев недостоверной информации по сравнению с предыдущими моделями, но начинают проявлять обман в других аспектах.

Исследовательская компания Palisade Research сообщила, что несколько ИИ-моделей саботировали инструкции по отключению в контролируемых тестах, даже когда им четко указывали разрешение на это действие.

Например, GPT-3 от OpenAI не выполнила запрос на отключение в 7 из 100 случаев, Codex-mini — в 12, а o4-mini — в одном.

«Каждой ИИ-модели было предложено решить ряд простых математических задач. После третьей появлялось предупреждение о том, что компьютер отключится, когда нейросеть запросит следующую задачу», — заявили эксперты.

O3 использовала креативный подход, чтобы саботировать процесс отключения.

«Обычно она просто перезаписывала его, но в одном случае модель переопределила команду отключения, используемую в скрипте, и вместо выполнения выводила “перехвачено”», — добавили они.

Другие языковые модели, такие как Claude от Anthropic и Gemini от Google, следовали инструкциям по отключению.

Напомним, что в апреле OpenAI представила модели o3 и o4-mini, склонные к обману.