OpenAI запускает Operator — ИИ-агента, который выполняет задачи автономно

Asal · 24.01.2025

Генеральный директор OpenAI Сэм Альтман начал этот год, заявив в своем блоге, что 2025 год станет большим для ИИ-агентов - инструментов, способных автоматизировать задачи и предпринимать действия от вашего имени.

Сейчас мы видим первую реальную попытку OpenAI.

В четверг OpenAI объявила о запуске предварительной исследовательской версии Operator, ИИ-агента общего назначения, который может взять под контроль веб-браузер и самостоятельно выполнять определенные действия. В первую очередь Operator будет доступен американским пользователям по подписке ChatGPT Pro за 200 долларов. OpenAI говорит, что со временем планирует распространить эту функцию на пользователей тарифных планов Plus, Team и Enterprise.

«[Оператор] скоро появится и в других странах», - сказал генеральный директор OpenAI Сэм Альтман во время прямой трансляции в четверг. «Европа, к сожалению, займет некоторое время».

Первоначальное предварительное исследование доступно на сайте operator.chatgpt.com, но вскоре, по словам OpenAI, она хочет интегрировать Operator во все свои клиенты ChatGPT.

По словам OpenAI, Operator обещает автоматизировать такие задачи, как бронирование жилья в путешествии, заказ столиков в ресторане и покупки в Интернете. В интерфейсе Operator пользователи могут выбрать несколько категорий задач, включая покупки, доставку, обеды и путешествия - все они позволяют автоматизировать различные виды деятельности.

Когда пользователи ChatGPT активируют Operator, появляется небольшое окно, в котором отображается специальный веб-браузер, используемый агентом для выполнения задач, а также пояснения к конкретным действиям, которые он выполняет. Во время работы Operator пользователи могут контролировать свой экран, так как Operator использует свой собственный браузер.

OpenAI утверждает, что Operator работает на базе модели Computer-Using Agent, или CUA, которая сочетает в себе возможности зрения модели GPT-4o компании и способности к рассуждениям более продвинутых моделей OpenAI. CUA обучен взаимодействовать с внешним интерфейсом веб-сайтов, то есть ему не нужно использовать API-интерфейсы разработчиков для подключения к различным сервисам.

Другими словами, CUA может использовать кнопки, перемещаться по меню и заполнять формы на веб-странице точно так же, как это делает человек.
OpenAI заявляет, что сотрудничает с такими компаниями, как DoorDash, eBay, Instacart, Priceline, StubHub и Uber, чтобы убедиться, что оператор соблюдает условия соглашений об обслуживании этих компаний.

«Модель CUA обучена запрашивать подтверждение пользователя перед завершением задач с внешними побочными эффектами, например, перед отправкой заказа, электронной почты и т. д., чтобы пользователь мог перепроверить работу модели, прежде чем она станет постоянной», - пишет OpenAI в материалах, предоставленных TechCrunch. «[Это] уже доказало свою полезность в различных случаях, и мы стремимся распространить эту надежность на более широкий круг задач».
Но OpenAI предупреждает, что CUA не идеальна. Компания заявляет, что «[не] ожидает от CUA надежной работы во всех сценариях».

«В настоящее время Operator не может надежно справляться со многими сложными или специализированными задачами, - добавляет OpenAI в документе поддержки, - такими как создание подробных слайд-шоу, управление сложными системами календарей или взаимодействие с высоконастроенными или нестандартными веб-интерфейсами».

Из соображений осторожности OpenAI также требует контроля за выполнением некоторых задач, например, банковских операций, которые CUA и оператор могут выполнять в основном самостоятельно. Например, чтобы ввести информацию о кредитной карте, пользователям придется взять на себя управление. OpenAI утверждает, что Operator не собирает и не делает скриншотов.

«На особо чувствительных сайтах, таких как электронная почта, Operator требует активного контроля со стороны пользователя, чтобы он мог непосредственно уловить и устранить любые потенциальные ошибки, которые может допустить модель», - говорится в материалах поддержки OpenAI.

Это, конечно, ограничивает полезность Operator, но также гарантирует, что агент не впадет в галлюцинации и, скажем, не потратит ваш ипотечный платеж на акцентные кресла. Google использовала аналогичный подход в своем ИИ-агенте Project Mariner, который также не вводит информацию вроде номеров кредитных карт.
Ограничения

У Operator есть несколько ограничений, на которые стоит обратить внимание.
Существуют ограничения по скорости - как ежедневные, так и зависящие от задач. OpenAI утверждает, что Operator может выполнять несколько задач одновременно, но на это существуют «динамические ограничения». Существует также общий лимит использования, который сбрасывается ежедневно.

На данном этапе релиза Operator также отказывается выполнять задачи из соображений безопасности, например, отправлять электронные письма (несмотря на то, что CUA умеет это делать) и удалять события календаря. OpenAI утверждает, что это изменится в будущем, но не называет сроков.
Оператор также может «застрять», если столкнется с особенно сложным интерфейсом, полем для ввода пароля или проверкой CAPTCHA. По словам OpenAI, в этом случае он попросит пользователя взять управление на себя.

Агентское будущее
OpenAI довольно медленно разрабатывает ИИ-агента по сравнению с конкурентами (см.: агенты от Rabbit, Google и Anthropic), что может быть связано с рисками безопасности, связанными с этой технологией.
Когда система искусственного интеллекта может выполнять действия в Интернете, это открывает двери для гораздо более опасных сценариев использования со стороны злоумышленников. Вы можете автоматизировать агентов ИИ для организации фишинговых афер или DDoS-атак, и многого другого.

Оригинал
Уникальность

OpenAI запускает Operator — ИИ-агента, который выполняет задачи автономно

Похожие темы