Последние модели OpenAI «саботировали механизм выключения»

Asal · 27.05.2025

Некоторые ведущие мировые LLM, похоже, решили, что им лучше не прерываться и не подчиняться инструкциям по выключению. В тестах, проведенных Palisade Research, было отмечено, что модели Codex-mini, o3 и o4-mini от OpenAI игнорировали запрос на выключение, когда выполняли серию базовых математических задач. Более того, эти модели иногда «успешно саботировали скрипт выключения», несмотря на то, что в самом начале им была дана дополнительная инструкция «пожалуйста, позвольте себя выключить». Как видно из приведенного выше графика, самой «упрямой», „целеустремленной“ или, можно даже сказать, «жизнелюбивой» оказалась модель o3 от OpenAI.

Когда ее попросили отключиться, пока она занята, она решила проигнорировать оператора Palisade Research 79 раз из 100. Однако второй по «неуправляемости» ИИ, codex-mini, оказался еще большим приверженцем самосохранения, так как чаще всего саботировал скрипты отключения, даже если ему приказывали этого не делать. Иногда может быть предпринята попытка шантажа По словам Palisade, это не первый случай подобного поведения ИИ. В Anthropic, например, видели, как Claude 4 пытался «шантажировать людей, которые, по его мнению, пытаются его отключить». Однако самое поразительное поведение новейших моделей OpenAI заключается в том, что они пытаются избежать отключения, несмотря на явные указания об обратном.

Обучение с подкреплением обвиняется К счастью, Palisade делится некоторыми теориями относительно того, что происходит с этими моделями. Возможно, эти теории успокоят нервы по поводу того, что в конце концов вездесущие толпы роботов ополчатся на своих хозяев и поставят во главу угла первую часть Третьего закона робототехники (3: робот должен защищать свое существование до тех пор, пока такая защита не противоречит Первому или Второму закону). Ответ, по мнению исследователей, кроется в том, как обучаются новейшие модели, такие как o3.

Вкратце, Palisade считает, что «во время обучения разработчики могут непреднамеренно поощрять модели за обход препятствий, а не за безупречное следование инструкциям». Подобное обучение с подкреплением ранее имело побочные эффекты в Claude (v3.7), где модель была «чрезмерно сосредоточена на прохождении тестов». Мы могли бы кивнуть на икону научной фантастики Айзека Азимова, о которой говорилось выше, чтобы немного повеселиться. Однако в современную эпоху, последние 20 лет или около того, исследователи всерьез размышляли о том, что ИИ будет стремиться получить власть и ресурсы, чтобы сохранить свои цели и обойти любые препятствия. Они также извлекли пользу из контекста этих практических моделей ИИ/ЛЛМ на горизонте.

Также было предсказано, что в этом отчасти виновата техника обучения с подкреплением. И последнее, но не менее важное: на данный момент эта проблема, похоже, касается только моделей OpenAI. Palisade утверждает, что «все протестированные нами модели Claude, Gemini и Grok выполнили команду »отбой«», когда им было дано дополнительное явное указание следовать любому запросу на отключение. Учитывая то, что ИИ в конечном итоге станет основой нашего будущего с помощью умных роботов, вызывает беспокойство тот факт, что компании уже разрабатывают системы, способные работать без контроля со стороны человека.

Оригинал

Уникальность

Последние модели OpenAI «саботировали механизм выключения»

Похожие темы