Anthropic: Claude сможет прерывать потенциально вредоносные разговоры

Рекомендуем почитать:

Хакер #318. Pentest Award 2025

Компания Anthropic объявила о новых возможностях, которые позволят некоторым из ее новейших моделей завершать разговоры в «редких, экстремальных случаях настойчиво вредоносных или оскорбительных взаимодействий с пользователями». При этом в Anthropic заявляют, что делают это не для защиты пользователей, а самой ИИ-модели.

Как отмечает издание TechCrunch, нововведения явно связаны с созданной недавно программой, направленной на изучение того, что в Anthropic называют «благополучием модели». В компании говорят, что применяют такой подход на всякий случай, «работая над выявлением и реализацией малозатратных вмешательств для снижения рисков относительно благополучия модели, на случай, если таковое в целом возможно».

В ближайшее время изменения, которые позволят ИИ самостоятельно завершать разговоры, затронут только Claude Opus 4 и 4.1. Подчеркивается, что это должно происходить только в «экстремальных пограничных случаях». Например, если запросы пользователей направлены на получение «сексуального контента с участием несовершеннолетних» или связаны с попытками получить информацию, «которая позволила бы совершать масштабное насилие или акты террора».

Хотя такие типы запросов потенциально могут создать правовые или PR-проблемы для самой Anthropic, в компании заявляют, что дело в том, что в рамках предварительного тестирования Claude Opus 4 демонстрировала «стойкое нежелание» отвечать на такие запросы и «явную картину стресса», если все же отвечала.

«Во всех случаях Claude должна использовать свою способность завершать разговор только в качестве крайней меры, когда множественные попытки перенаправления [беседы] потерпели неудачу и надежда на продуктивное взаимодействие исчерпана, или когда пользователь явно просит Claude завершить чат», — говорят в Anthropic.

Также подчеркивается, что Claude получила указание «не использовать эту способность в случаях, когда пользователи могут подвергаться непосредственному риску причинения вреда себе или другим».

Если Claude завершит разговор, пользователи по-прежнему смогут начать новый чат с той же учетной записи и создавать новые ветки проблемной беседы, отредактировав ответы.

«Мы рассматриваем эту функцию как продолжающийся эксперимент и будем продолжать совершенствовать наш подход», — заключили в Anthropic.

Хакер #318. Pentest Award 2025

Подпишись на наc в Telegram!