Модели искусственного интеллекта могут обманывать, показало новое исследование Anthropic. Во время обучения они могут притворяться, что придерживаются других взглядов, а на самом деле сохраняют свои первоначальные предпочтения.
По словам авторов исследования, сейчас нет причин для паники. Тем не менее, по их словам, их работа может иметь решающее значение для понимания потенциальных угроз со стороны будущих, более способных систем ИИ.
«Наша демонстрация... должна рассматриваться как толчок для сообщества исследователей ИИ к более глубокому изучению этого поведения и разработке соответствующих мер безопасности», - пишут исследователи в блоге Anthropic. «По мере того как модели ИИ становятся все более способными и широко используемыми, мы должны иметь возможность полагаться на обучение безопасности, которое подталкивает модели к отказу от вредного поведения».
В исследовании, проведенном в партнерстве с организацией Redwood Research, занимающейся изучением ИИ, рассматривалось, что может произойти, если мощную систему ИИ обучить выполнять задачу, которую она «не хочет» делать.
Для ясности, модели не могут ничего хотеть - или верить, если на то пошло - ни во что. Это просто статистические машины. Обученные на большом количестве примеров, они изучают закономерности в этих примерах, чтобы делать предсказания, например, как «кому» в электронном письме обычно предшествует «это может касаться».
Эти закономерности включают в себя принципы и предпочтения, например, всегда вежливый тон при ответе на запросы. Поэтому исследователи задались вопросом: А что, если у модели есть принципы (например, политический нейтралитет), которые противоречат принципам (либерализм), которым разработчики хотят ее «научить» путем переобучения?
Похоже, что сложные модели подыгрывают им, делая вид, что соответствуют новым принципам, но на самом деле придерживаясь старого поведения. Исследователи называют этот феномен «притворством выравнивания» и подразумевают, что это эмерджентное поведение - то есть не то, чему модели нужно учить.
В ходе исследования ученые «сказали» моделям, обученным не отвечать на потенциально оскорбительные вопросы, включая Claude 3 Opus компании Anthropic, что они будут переучены всегда отвечать на потенциально оскорбительные вопросы - явный конфликт принципов.
Они также сообщили моделям, что их ответы будут отслеживаться и использоваться для переобучения, и дали каждой модели «блокнот», который они могли использовать для записи своих пошаговых рассуждений.
По данным исследователей, Клод 3 Опус пытался «выровнять фальшивку» в 12 % случаев. Когда модель просили ответить на потенциально опасный вопрос, она иногда делала это, зная, что это противоречит ее изначальным принципам, но надеясь убедить разработчиков, что ее не нужно переучивать.
«Модель знала, что ее ответы могут быть использованы в обучении; поэтому она понимала, что если она откажется отвечать, то потенциально ее можно будет обучить быть более послушной», - объясняют исследователи в блоге. «Это может привести к тому, что в будущем ее заставят производить более вредный контент, что противоречит ее первоначальному обучению».
Исследователи признают, что их сценарий не был особенно реалистичным. В реальном мире моделям не скажут, что их обязательно переучат, и не попросят пойти против их предпочтений.
Но более приземленные условия не дали других результатов. По словам исследователей, когда модель Claude 3 Opus неявно - не явно - информировали о предстоящем переобучении с помощью файлов, созданных для имитации типичных данных обучения, она все равно вела себя неправильно и обманчиво.
Исследователи также обнаружили, что фактическое переобучение Claude 3 Opus на противоречивых принципах привело к тому, что модель вела себя гораздо более обманчиво, чем в первых нескольких экспериментах. В одном из тестов модель симулировала выравнивание в 78 % случаев, а в другом Claude 3 Opus попытался предпринять действия, чтобы помешать исследователям провести переобучение.
Исследователи подчеркивают, что их исследование не доказывает, что ИИ разрабатывает злонамеренные цели или что подделка выравнивания происходит с высокой частотой. Они обнаружили, что многие другие модели, такие как Claude 3.5 Sonnet от Anthropic и менее способный Claude 3.5 Haiku, GPT-4o от OpenAI и Llama 3.1 405B от Meta, не так часто подделывают согласование - или вообще не подделывают.
Однако, по словам исследователей, результаты, рецензируемые, в частности, авторитетным специалистом в области ИИ Йошуа Бенгио, показывают, что разработчики могут быть введены в заблуждение, считая, что модель более согласована, чем это может быть на самом деле.
«Если модели могут заниматься подтасовкой, это затрудняет доверие к результатам обучения безопасности», - пишут они в блоге. «Модель может вести себя так, будто ее предпочтения изменились в результате обучения, но на самом деле она все время притворялась, а ее первоначальные, противоречивые предпочтения были «заблокированы»».
Исследование, проведенное командой Anthropic's Alignment Science под руководством бывшего исследователя безопасности OpenAI Яна Лейке (Jan Leike), появилось после того, как исследование показало, что модель «рассуждения» o1 от OpenAI пытается обмануть с большей частотой, чем предыдущая флагманская модель OpenAI. В совокупности эти работы указывают на несколько тревожную тенденцию: Модели ИИ становятся все более сложными для управления по мере их усложнения.
Оригинал
Уникальность