Компания OpenAI, возможно, близка к выпуску инструмента искусственного интеллекта, который сможет взять под контроль ваш компьютер и выполнять действия от вашего имени. Тибор Блахо, инженер-программист, имеющий репутацию человека, который с точностью сообщает о готовящихся продуктах ИИ, утверждает, что обнаружил доказательства существования инструмента Operator от OpenAI, о котором давно ходят слухи.
Издания, включая Bloomberg, уже сообщали об Operator, который, как утверждается, является «агентской» системой, способной автономно решать такие задачи, как написание кода и бронирование путешествий. По данным The Information, OpenAI планирует выпустить Operator в январе. Код, обнаруженный Blaho в эти выходные, подтверждает эту информацию. В клиенте ChatGPT от OpenAI для macOS появились скрытые пока опции для определения ярлыков «Toggle Operator» и «Force Quit Operator», сообщает Blaho.
По словам Блахо, OpenAI добавила ссылки на Operator на свой веб-сайт - правда, пока непубличные. По словам Блахо, на сайте OpenAI также есть пока не опубликованные таблицы, в которых сравнивается производительность Operator с другими системами ИИ, использующими компьютеры. Эти таблицы вполне могут быть пустышками. Но если цифры точные, они говорят о том, что Operator не на 100% надежен, в зависимости от задачи. В OSWorld, бенчмарке, который пытается имитировать реальную компьютерную среду, «OpenAI Computer Use Agent (CUA)» - возможно, модель ИИ, лежащая в основе Operator, - набирает 38,1%, опережая модель управления компьютером от Anthropic, но не дотягивая до 72,4%, набранных человеком.
OpenAI CUA превосходит человеческие показатели в WebVoyager, который оценивает способность ИИ к навигации и взаимодействию с веб-сайтами. Но в другом веб-эталоне, WebArena, модель не дотягивает до уровня человека, согласно утечке бенчмарков. Если верить утечке, Operator также не справляется с задачами, которые легко может выполнить человек. В тесте, в котором оператору было поручено зарегистрироваться у облачного провайдера и запустить виртуальную машину, он справился с задачей лишь в 60 % случаев.
С задачей создания кошелька Bitcoin оператор справился лишь в 10 % случаев. Мы связались с OpenAI для получения комментариев и обновим этот материал, если получим ответ. OpenAI выходит на рынок ИИ-агентов в то время, как конкуренты, включая вышеупомянутую Anthropic, Google и другие компании, делают ставки на этот зарождающийся сегмент. ИИ-агенты могут быть рискованными и спекулятивными, но технологические гиганты уже провозглашают их следующей большой вещью в ИИ. По данным аналитической компании Markets and Markets, к 2030 году объем рынка ИИ-агентов может составить 47,1 миллиарда долларов.
Сегодня агенты довольно примитивны. Но некоторые эксперты высказывают опасения по поводу их безопасности, если технология будет быстро совершенствоваться. Один из просочившихся графиков показывает, что Operator демонстрирует высокие результаты в отдельных тестах на безопасность, включая тесты, в которых систему пытаются заставить выполнять «незаконные действия» и искать «чувствительные личные данные». Как сообщается, тестирование безопасности является одной из причин длительного цикла разработки Operator.
В недавнем посте X соучредитель OpenAI Войцех Заремба раскритиковал Anthropic за выпуск агента, в котором, по его словам, отсутствуют меры по снижению безопасности. «Я могу только представить себе негативную реакцию, если OpenAI выпустит подобный релиз», - написал Заремба. Стоит отметить, что OpenAI подвергалась критике со стороны исследователей ИИ, в том числе и бывших сотрудников, за то, что они якобы не уделяют должного внимания работе над безопасностью в пользу быстрого выпуска своей технологии.
Оригинал
Уникальность