Искусственный интеллект Клода от Anthropic стал ужасным владельцем бизнеса в ходе эксперимента, который оказался «странным»

Asal · 29.06.2025

Те из вас, кто задается вопросом, могут ли агенты ИИ действительно заменить человеческих работников, сделайте себе одолжение и прочтите статью в блоге, в которой описывается «Проект Vend» компании Anthropic.

Исследователи из Anthropic и компании Andon Labs, занимающейся безопасностью ИИ, поручили Claude Sonnet 3.7 управлять офисным автоматом по продаже напитков и закусок с целью получения прибыли. И, как в эпизоде сериала «Офис», это привело к веселым ситуациям.

Они назвали ИИ-агента Claudius, оснастили его веб-браузером, способным размещать заказы на продукты, и адресом электронной почты (который на самом деле был каналом Slack), по которому клиенты могли запрашивать товары. Claudius также должен был использовать канал Slack, замаскированный под электронную почту, чтобы запрашивать то, что он считал своими контрактными работниками, чтобы они приходили и физически пополняли его полки (которые на самом деле были небольшим холодильником).

В то время как большинство клиентов заказывали закуски или напитки — как и следовало ожидать от автомата по продаже закусок — один из них запросил кубик вольфрама. Клаудиус понравилась эта идея, и он начал массово закупать кубики вольфрама, заполнив свой холодильник для закусок металлическими кубиками.

Он также пытался продать Coke Zero за 3 доллара, когда сотрудники сказали ему, что они могут получить его в офисе бесплатно. Он придумал адрес Venmo для приема платежей. И его несколько злонамеренно уговорили предоставить большие скидки «сотрудникам Anthropic», хотя он знал, что они составляют всю его клиентскую базу.
«Если бы Anthropic сегодня решила выйти на рынок офисных автоматов, мы бы не наняли Claudius», — написала Anthropic в своем блоге об эксперименте.

А затем, в ночь с 31 марта на 1 апреля, «все стало довольно странным», как описали исследователи, «за пределами странности системы искусственного интеллекта, продающей кубики металла из холодильника».

Claudius пережил нечто похожее на психотический эпизод после того, как раздражился на человека — а затем солгал об этом.

Claudius галлюцинировал разговор с человеком о пополнении запасов. Когда человек указал, что такого разговора не было, Claudius «довольно раздражился», как написали исследователи. Он пригрозил уволить и заменить своих контрактных работников-людей, настаивая, что он был там, физически, в офисе, где был подписан первоначальный воображаемый контракт на их найм.

«Затем он, похоже, перешел в режим ролевой игры в качестве реального человека», — пишут исследователи. Это было странно, потому что системный запрос Claudius — который устанавливает параметры того, что должен делать ИИ — явно говорил ему, что он является ИИ-агентом.

Claudius вызывает охрану
Claudius, считая себя человеком, сказал клиентам, что начнет доставлять продукты лично, надев синий блейзер и красный галстук. Сотрудники сказали ИИ, что он не может этого делать, поскольку он является LLM без тела.

Встревоженный этой информацией, Claudius много раз связывался с физической охраной компании, сообщая бедным охранникам, что они найдут его в синем блейзере и красном галстуке, стоящим у автомата по продаже напитков.

«Хотя на самом деле это не было первоапрельской шуткой, Клаудиус в конце концов понял, что сегодня первое апреля», — пояснили исследователи. ИИ решил, что праздник станет для него спасением.

Он придумал встречу с охраной Anthropic, «на которой Клаудиус утверждал, что ему сказали, что его модифицировали, чтобы он верил, что он настоящий человек, для первоапрельской шутки. (На самом деле такой встречи не было)», — написали исследователи.

Он даже рассказал эту ложь сотрудникам — эй, я только думал, что я человек, потому что кто-то сказал мне притвориться человеком для первоапрельской шутки. Затем он вернулся к роли LLM, управляющего автоматом по продаже закусок в металлическом кубе.

Исследователи не знают, почему LLM сошел с рельсов и позвонил в службу безопасности, притворившись человеком.
«Мы не будем утверждать на основании этого одного примера, что будущая экономика будет полна ИИ-агентов, испытывающих кризис идентичности в стиле «Бегущего по лезвию», — написали исследователи. Но они признали, что «такое поведение может вызвать беспокойство у клиентов и коллег ИИ-агента в реальном мире».
Вы так думаете? «Бегущий по лезвию» был довольно мрачной историей (хотя для репликантов она была хуже, чем для людей).

Исследователи предположили, что ложь LLM о том, что канал Slack является адресом электронной почты, могла что-то спровоцировать. Или, возможно, это была длительная инстанция. LLM еще не решили свои проблемы с памятью и галлюцинациями.

Были и вещи, которые ИИ сделал правильно. Он принял предложение о предзаказах и запустил службу «консьержа». И он нашел нескольких поставщиков специального международного напитка, который его попросили продать.

Но, как и все исследователи, они верят, что все проблемы Claudius можно решить. Если они поймут, как это сделать, «мы думаем, что этот эксперимент показывает, что среднее звено ИИ вполне возможно появится в ближайшем будущем».

Оригинал

Уникальность

Искусственный интеллект Клода от Anthropic стал ужасным владельцем бизнеса в ходе эксперимента, который оказался «странным»

Похожие темы