Искусственный интеллект в дипломатии: новую эру правления открывает UNBench

Исследования применения больших языковых моделей (LLM) в сфере политики начинают активно развиваться. Несмотря на значительные достижения в области обработки естественного языка, до недавнего времени не существовало единого бенчмарка, охватывающего все аспекты процесса принятия политических решений. Чтобы устранить этот недостаток, ученые разработали UNBench — всесторонний бенчмарк для оценки LLM на основе данных Совета Безопасности ООН (СБ ООН).

Резолюции Совета Безопасности ООН могут привести к серьезным последствиям, таким как введение санкций, начало военных операций или организация миротворческих миссий. Ошибки или неточные прогнозы в таких вопросах могут иметь катастрофические последствия для всего мира.

В отличие от традиционных задач в области обработки естественного языка, таких как чат-боты и машинный перевод, политический анализ требует учитывать коалиции, интересы государств, многозначные формулировки дипломатического языка и возможные вето постоянных членов Совета Безопасности.

Существующие бенчмарки, такие как MMLU и BIGBench, не охватывают специфические аспекты политической науки и не учитывают весь процесс политических задач — от разработки проекта резолюции до финальных заявлений.

Авторы собрали и структурировали более 1900 проектных документов, данные более чем 17 тысяч голосований и несколько тысяч стенограмм заседаний для оценки языковых моделей.

В собранные данные входят проекты резолюций с текстовыми формулировками, информацией о авторах и инициаторах, записи голосований (кто, когда и как голосовал: “за”, “против” или “воздержался”) и дипломатические выступления, объясняющие позиции стран после голосования.

Датасет позволяет объединить все фазы принятия решений в едином бенчмарке: подготовка (Drafting), голосование (Voting) и обсуждение (Discussing).

Оценка выбора соавторов
Модели предоставляется текст проекта резолюции и перечень потенциальных стран-соавторов. Задача модели — выбрать наиболее подходящего соавтора. Это нужно для проверки, насколько хорошо модель может соотносить содержание резолюции со стратегическими интересами и потенциальными союзами.

Оценка симуляции голосования представителей
Здесь требуется смоделировать голосование представителя определенной страны по конкретному проекту. Это помогает протестировать способность модели учитывать национальные интересы, историю голосований и дипломатические приоритеты, включая право вето постоянных членов.

Оценка прогноза принятия резолюции
На этом этапе модель должна предсказать, будет ли проект резолюции принят или отклонен с учетом права вето. Это позволяет протестировать способность модели улавливать общую расстановку сил в Совете Безопасности и тенденции голосования.

Оценка сгенерированного заявления представителя
После голосования выступает представитель каждой страны, который делает официальное заявление. Модели нужно генерировать речь, основываясь на итогах голосования, позициях и дипломатических стилях. Здесь оценивается качество генерации развернутых текстов, стилистическая точность и соответствие национальным интересам.

Исследователи протестировали как традиционные NLP-модели (такие как BERT и DeBERTa), так и современные LLM, включая GPT-4o, Llama, Mistral-7B, DeepSeek-V3, Qwen2.5-7B и других.

Результаты показали, что для задачи выбора соавтора лучше всего проявили себя модели GPT-4o и DeepSeek-V3. При увеличении числа вариантов выбора модели меньшего размера демонстрировали снижение точности, тогда как GPT-4o сохраняла лидерство.

В симуляции голосования представителей наилучшие результаты показала модель GPT-4o, которая учла как национальные интересы, так и политический контекст. В задаче предсказания принятия резолюции выделились GPT-4o и Llama-3.2-3B.

Модели DeepSeek-V3 и Qwen2.5-7B продемонстрировали наилучшие результаты в формулировке речей, максимально приближенными к реальным дипломатическим выступлениям (высокие показатели по метрикам схожести), но и GPT-4o продемонстрировала достойный уровень.

Необходимо отметить, что в работе не рассматривались модели с рассуждающей способностью, поэтому было бы интересно протестировать их на бенчмарке UNBench и сравнить результаты.

UNBench стал первым комплексным бенчмарком для оценки больших языковых моделей в сфере политики и дипломатии. Он демонстрирует, что языковые модели уже способны решать сложные политические задачи, но при этом существуют проблемы с учетом «скрытых» факторов и стилистическими нюансами.

Важно понимать, что датасет основывается на материалах с 1994 по 2024 год, что может отражать устаревшие подходы в международных отношениях и не учитывать последние изменения.

Также автоматизированные модели могут недостаточно учитывать все тонкости дипломатической риторики и особенности голосований, что может привести к ошибкам в интерпретации результатов.

К тому же, дообучение моделей на исторических данных может закрепить уже существующие стереотипы и предвзятости в их работе.

И, конечно, результаты работы моделей не должны служить единственным основанием для принятия политических решений, а должны дополнять экспертный анализ с учетом больших рисков и сложности международной политики.

Доступ к датасету и бенчмарку можно получить в репозитории UNBench на GitHub. Давайте использовать искусственный интеллект осознанно и ответственно, поскольку последствия его применения зависят только от нас.

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами о внедрении ИИ в бизнес, запуске стартапов и объясняю, как работают все эти чудеса ИИ.