Метод «Выделенной цепочки мыслей»: как новаторский подход улучшает понимание и проверку ответов языковых моделей

Новый подход к подсказкам под названием «Highlighted Chain of Thought» (Выделенная цепочка мыслей, или HoT) предназначен для улучшения способности больших языковых моделей объяснять свои выводы и облегчает человеческую проверку их ответов. Этот метод включает два этапа: в начале AI переформулирует исходный вопрос и выделяет ключевые факты с помощью XML-тегов, а затем создает ответ, ссылаясь на эти отмеченные факты, таким образом устанавливая ясные связи между вопросом и ответом.

Такой структурированный метод заставляет модели более внимательно анализировать представленные факты, что, по мнению исследователей, может снизить количество ошибок. Кроме того, цветовая кодировка выделений облегчает пользователям проверку логики рассуждений AI.

Команда исследователей использовала 15 пар вопросов и ответов с комментариями от людей, чтобы обучить модели AI самостоятельно формулировать основные идеи с помощью этого метода подсказок. Результаты тестирования показали, что HoT повышает точность выполнения различных задач AI. В некоторых случаях достигалось улучшение на уровне до 15%, в зависимости от модели и бенчмарка.

Сравнивая с традиционным методом цепочки мыслей (CoT), который применялся для обучения современных моделей рассуждений, таких как OpenAI o1, HoT показал увеличение точности на 1,6% в задачах арифметики, на 2,58% в вопросно-ответных задачах и на 2,53% в логических рассуждениях.

Исследователи испытали HoT на пяти различных языковых моделях: GPT-4o, Gemini-1.5-Pro, Gemini-1.5-Flash, Llama-3.1-70B и Llama-3.1-405B и оценили 17 различных типов задач, включая арифметику, понимание прочитанного и логическое мышление.

Однако модели рассуждений показали минимальные или неблагоприятные результаты в тестах с использованием HoT; в нескольких случаях модель Deepseek-R1 даже продемонстрировала несколько худшие показатели. Исследователи связывают это с подходом, основанным на примерах, который может приводить к снижению эффективности для моделей, занимающихся рассуждениями.

Люди, выполнявшие тесты, справлялись с проверкой задач на 25% быстрее, когда ответы были выделены, однако это также вызвало неожиданное влияние на доверие: пользователи оказались более склонны принимать ответы AI, даже если они были неверными.

С выделениями люди правильно определяли верные ответы в 84,5% случаев по сравнению с 78,8% без них. Однако их способность выявлять неверные ответы снизилась с 72,2% до 54,8% при наличии выделений. Тестирование с AI в качестве проверяющих не дало значительных улучшений.

Несмотря на это, исследователи выражают надежду на то, что HoT сможет повысить прозрачность искусственного интеллекта, хотя уточняют, что требуется дополнительное изучение влияния цветового выделения на доверие пользователей.

Метод также имеет некоторые технические ограничения. Меньшие модели, такие как Llama-3.1-8B и Qwen-2.5-Coder-32B, испытывают трудности с выполнением инструкций по тегированию, часто неверно помечая результаты или просто повторяя примеры. Также было установлено, что изменение тегов на случайные фразы значительно снижает точность, что подчеркивает важность согласованного тегирования между вопросами и ответами.

В будущем исследовательская группа планирует обучить AI формировать ответы по методу HoT напрямую, минуя подсказки-примеры, что может сделать данный подход более эффективным и универсальным.

Исследование доступно на сервере препринтов arXiv и на странице проекта. Исследователи также публикуют свой код и данные на GitHub.