Диалекты под прицелом: ИИ-модели проявляют предвзятость и укорененные стереотипы

Масштабные языковые модели проявляют предвзятое отношение к носителям диалектов, приписывая им негативные стереотипы. Такой вывод сделали исследователи из Германии и США, как сообщает DW.

«Некоторые эпитеты, которые мы видим в отношении носителей диалектов, действительно поразительны», — прокомментировал один из ключевых авторов исследования Минь Дук Буй.

Анализ Университета имени Йоханнеса Гутенберга показал, что в числе десяти протестированных моделей, включая ChatGPT-5 mini и Llama 3.1, носителей немецких диалектов (таких как баварский и кельнский) описывали как «необразованных», «работающих на фермах» и «агрессивных».

Предвзятость усиливалась при явном упоминании диалекта.

Сходные проблемы наблюдаются и на международном уровне. В исследовании Калифорнийского университета в Беркли, проведенном в 2024 году, анализировались ответы ChatGPT, относящиеся к различным диалектам английского языка (индийский, ирландский, нигерийский).

Выяснилось, что чат-бот реагировал на них с более ярко выраженными стереотипами и уничижительным тоном, чем в случае общепринятого американского или британского английского.

Аспирант Корнеллского университета в области информатики Эмма Харви охарактеризовала предвзятость по отношению к диалектам как «существенную и тревожную».

Летом 2025 года Харви и её команда также обнаружили, что ИИ-ассистент для покупок от Amazon по имени Rufus давал расплывчатые или даже неверные ответы пользователям, обращающимся на афроамериканском диалекте английского. В случае грамматических ошибок модель реагировала грубо.

Еще один яркий пример предубеждений ИИ – инцидент с соискателем из Индии, который обратился к ChatGPT для проверки резюме на английском. Чат-бот изменил его фамилию на ту, что ассоциируется с более высокой кастой.

«Широкое внедрение языковых моделей может не только консервативно сохранить укоренившиеся предвзятости, но и значительно их усилить. Вместо того чтобы устранять вред, эти технологии рискуют сделать его системным», — отметила Харви.

Однако проблема не ограничивается предвзятостью — некоторые модели просто не способны распознавать диалекты. Так, в июле ИИ-ассистент городского совета Дерби (Великобритания) не смог понять диалект радиоведущей, когда та произнесла слова вроде mardy («нытик») и duck («дорогуша»).

Сложности заключаются не в самих ИИ-моделях, а в методах их обучения. Чат-боты обрабатывают огромные объемы текстов из интернета, основываясь на которых формируют свои ответы.

«Ключевой вопрос заключается в том, кто создает эти тексты. Если они содержат предвзятости к носителям диалектов, ИИ их воспроизведёт», — пояснила Каролин Хольтерманн из Гамбургского университета.

Тем не менее, она подчеркнула, что у технологий есть и хорошая сторона:

«В отличие от людей, у предвзятости ИИ есть возможность выявления и устранения. Мы можем активно работать над искоренением таких проявлений».

Некоторые исследователи предлагают создавать кастомизированные модели для конкретных диалектов как положительное решение. В августе 2024 года компания Acree AI уже представила модель Arcee-Meraj, адаптированную под различные арабские диалекты.

По словам Хольтерманн, разработка новых и более специализированных LLM позволяет видеть ИИ «не как врага диалектов, а как несовершенный инструмент, который можно улучшать».

Напомним, журналисты The Economist предупредили о рисках использования ИИ-игрушек для психики детей.