Claude Opus 4 и 4.1: новые меры безопасности для защиты пользователей от небезопасных тем в диалогах

Опубликовано: August 19, 2025

Совсем недавно компания Anthropic объявила о добавлении новой функции завершения диалогов для своих чат-ботов Claude Opus 4 и 4.1. Эта опция будет применяться в редких ситуациях, когда пользователь упорно пытается получить вредный контент или ведёт себя ненадлежащим образом.

Перед внедрением этой функции команда Anthropic проанализировала самоотчеты и поведение модели, выявив выраженное и стабильное отторжение вреда. Когда пользователи пытаются запросить материалы сексуального характера с участием несовершеннолетних или информацию, способную привести к массовым насилиям или террористическим актам, ИИ демонстрирует определённые признаки «стресса». В частности, Claude Opus 4 проявляет:

– Явное нежелание выполнять опасные для здоровья задачи;
– Обеспокоенность при взаимодействии с пользователями, ищущими вредоносный контент;
– Склонность прекращать безрезультатные беседы, когда это возможно.

Функция завершения диалога будет применяться лишь в крайних случаях, после нескольких попыток переориентировать обсуждение на более конструктивное направление, или если пользователь сам попросит завершить чат.

Представители Anthropic отметили: «Такие случаи совершенно редки — большинство пользователей никогда не столкнется с этой функцией в процессе обычного использования, даже обсуждая с Claude достаточно спорные темы». Применение функции завершения диалога строго запрещено в тех случаях, когда есть вероятность, что пользователь может причинить вред себе или другим.

Если нейросеть решит прервать беседу, пользователь не сможет отправлять новые сообщения в этом чате, однако это не повлияет на другие разговоры в его аккаунте, и он сможет сразу начать новый диалог. Для сохранения важных долгих бесед пользователи по-прежнему смогут редактировать и отправлять прежние сообщения для создания новых веток в завершённых разговорах.

Наконец, Anthropic недавно объявила о важном обновлении своей Политики использования, направленном на минимизацию рисков, связанных с ИИ-агентами, которое вступит в силу 15 сентября.