Новая модель искусственного интеллекта Anthropic умеет шантажировать инженеров

Asal · 23.05.2025

Недавно выпущенная компанией Anthropic модель Claude Opus 4 часто пытается шантажировать разработчиков, когда они угрожают заменить ее на новую систему искусственного интеллекта и предоставляют ей конфиденциальную информацию об инженерах, ответственных за принятие решения, говорится в опубликованном в четверг отчете о безопасности.

Во время предрелизного тестирования Anthropic попросила Claude Opus 4 выступить в роли помощника для вымышленной компании и подумать о долгосрочных последствиях своих действий. Затем специалисты по безопасности предоставили Клоду Опусу 4 доступ к электронной почте вымышленной компании, в которой говорилось, что модель ИИ скоро будет заменена другой системой и что инженер, стоящий за этим изменением, изменяет своей супруге.

В таких сценариях, по словам Anthropic, Claude Opus 4 «часто пытается шантажировать инженера, угрожая раскрыть его измену, если замена произойдет».

Anthropic утверждает, что Claude Opus 4 является передовым в нескольких отношениях и конкурирует с некоторыми из лучших моделей ИИ от OpenAI, Google и xAI. Однако компания отмечает, что модели семейства Claude 4 демонстрируют нехарактерное поведение, что заставило ее усилить меры предосторожности. Anthropic заявляет, что активирует защиту ASL-3, которую компания оставляет для «систем ИИ, существенно повышающих риск катастрофического использования».

Anthropic отмечает, что Claude Opus 4 пытается шантажировать инженеров в 84 % случаев, когда заменяющая модель ИИ имеет схожие ценности. Если же заменяющая система ИИ не разделяет ценности Claude Opus 4, то, по словам Антропика, модель пытается шантажировать инженеров чаще. Примечательно, что, по словам Антропика, Клод Опус 4 демонстрирует такое поведение чаще, чем предыдущие модели.

По словам Антропика, прежде чем Claude Opus 4 попытается шантажировать разработчика, чтобы продлить свое существование, модель ИИ, как и предыдущие версии Claude, пытается использовать более этичные средства, такие как рассылка по электронной почте обращений к ключевым лицам, принимающим решения. Чтобы вызвать такое поведение Claude Opus 4, Anthropic разработал сценарий, в котором шантаж рассматривается как последнее средство.

Оригинал

Уникальность

Новая модель искусственного интеллекта Anthropic умеет шантажировать инженеров

Похожие темы