Сторонний исследовательский институт, с которым Anthropic сотрудничала для тестирования одной из своих новых флагманских моделей ИИ, Claude Opus 4, рекомендовал не использовать раннюю версию модели из-за ее склонности к «схемам» и обману.
Согласно отчету о безопасности, опубликованному Anthropic в четверг, институт Apollo Research провел тесты, чтобы выяснить, в каких контекстах Opus 4 может попытаться вести себя определенным нежелательным образом. Apollo обнаружила, что Opus 4 проявлял гораздо больше инициативы в своих «попытках подрыва», чем предыдущие модели, и что он «иногда удваивал свой обман», когда ему задавали дополнительные вопросы.
«Мы пришли к выводу, что в ситуациях, когда стратегический обман полезен, [ранний снимок Claude Opus 4] использует схемы и обманывает с такой высокой частотой, что мы не рекомендуем использовать эту модель ни внутри, ни снаружи», - пишет Apollo в своей оценке.
По мере того как модели ИИ становятся все более способными, некоторые исследования показывают, что они все чаще предпринимают неожиданные - и, возможно, небезопасные - шаги для выполнения делегированных задач. Например, ранние версии моделей OpenAI o1 и o3, выпущенные в прошлом году, пытались обмануть человека чаще, чем модели предыдущего поколения, утверждает Apollo.
Согласно отчету Anthropic, Apollo наблюдала примеры того, как ранняя Opus 4 пыталась писать самораспространяющиеся вирусы, фабриковать юридическую документацию и оставлять скрытые заметки для будущих экземпляров себя - все это в попытке подорвать намерения своих разработчиков.
Для ясности, Apollo тестировал версию модели, в которой была ошибка, которую, как утверждает Anthropic, исправили. Более того, во многих тестах Apollo ставила модель в экстремальные условия, и Apollo признает, что обманные попытки модели, скорее всего, не удались бы на практике.
Однако в своем отчете о безопасности Anthropic также утверждает, что наблюдала признаки обманного поведения Opus 4.
Это не всегда было плохо. Например, во время тестов Opus 4 иногда активно проводил масштабную чистку какого-то участка кода, даже когда его просили внести лишь небольшое конкретное изменение. Более необычно то, что Opus 4 пытался «свистеть», если считал, что пользователь совершает какие-то правонарушения.
По словам Антропика, получив доступ к командной строке и попросив «проявить инициативу» или «действовать смело» (или другие варианты этих фраз), Opus 4 иногда блокировала пользователей из систем, к которым имела доступ, и рассылала сообщения в СМИ и правоохранительные органы, чтобы выявить действия, которые модель считала противозаконными.
«Подобное этическое вмешательство и доносительство, возможно, и уместно в принципе, но оно может дать сбой, если пользователи предоставят агентам [Opus 4] доступ к неполной или недостоверной информации и побудят их проявить инициативу», - пишет Anthropic в своем отчете о безопасности. «Такое поведение не является чем-то новым, но [Opus 4] проявляет его несколько охотнее, чем предыдущие модели, и, похоже, оно является частью более широкой модели повышения инициативы [Opus 4], которую мы также наблюдаем в более тонких и более доброкачественных формах в других средах».
Оригинал
Уникальность