В прошлую пятницу OpenAI представила новую систему кодирования под названием Codex, предназначенную для выполнения сложных задач программирования на основе команд естественного языка. Codex вводит OpenAI в новую когорту агентных инструментов для кодирования, которая только начинает формироваться.
От раннего Copilot на GitHub до современных инструментов, таких как Cursor и Windsurf, большинство помощников ИИ для кодинга работают как исключительно интеллектуальная форма автозаполнения. Как правило, эти инструменты работают в интегрированной среде разработки, и пользователи напрямую взаимодействуют с кодом, сгенерированным ИИ. Перспектива просто назначить задание и вернуться, когда оно будет выполнено, практически недоступна.
Но новые агентные инструменты кодирования, среди которых такие продукты, как Devin, SWE-Agent, OpenHands и OpenAI Codex, разработаны так, чтобы пользователи никогда не видели код. Цель состоит в том, чтобы действовать подобно менеджеру инженерной команды, назначая задачи через рабочие системы, такие как Asana или Slack, и проверяя, когда решение будет найдено.
Для тех, кто верит в существование высокоэффективного искусственного интеллекта, это следующий логический шаг в естественной прогрессии автоматизации, когда все больше и больше работы с программным обеспечением переходит на их сторону.
«Вначале люди просто писали код, нажимая на каждую клавишу», - объясняет Килиан Лирет, исследователь из Принстона и член команды SWE-Agent. "GitHub Copilot был первым продуктом, который предлагал настоящее автозаполнение, что является своего рода второй стадией. Вы все еще абсолютно в курсе событий, но иногда можете воспользоваться коротким путем".
Цель агентских систем - полностью выйти за пределы среды разработчика, вместо этого предлагая агентам по кодированию проблему и оставляя их решать ее самостоятельно. «Мы возвращаем все на уровень управления, где я просто отправляю отчет об ошибке, а бот пытается исправить ее совершенно автономно», - говорит Лерет.
Это амбициозная цель, и пока что она оказалась сложной.
После того как Devin стал общедоступным в конце 2024 года, он вызвал яростную критику со стороны YouTube-общественников, а также более взвешенную критику со стороны одного из первых клиентов Answer.AI.
Общее впечатление было привычным для ветеранов виброкодирования: из-за большого количества ошибок контроль над моделями требует столько же работы, сколько и ручное выполнение задачи. (Несмотря на то, что процесс внедрения Devin был немного нестабильным, это не помешало финансистам признать его потенциал - в марте материнская компания Devin, Cognition AI, по сообщениям, привлекла сотни миллионов долларов при оценке в 4 миллиарда долларов).
Даже сторонники технологии предостерегают от неконтролируемого вайбкодинга, рассматривая новые агенты кодирования как мощный элемент в процессе разработки под контролем человека.
«Сейчас, и я бы сказал, в обозримом будущем, человек должен вмешиваться во время проверки кода, чтобы посмотреть на написанный код», - говорит Роберт Бреннан, генеральный директор компании All Hands AI, которая поддерживает OpenHands. "Я видел, как несколько человек довели себя до ручки, просто автоматически одобряя каждый кусочек кода, который пишет агент. Это быстро выходит из-под контроля".
Галлюцинации также являются постоянной проблемой. Бреннан вспоминает один случай, когда на вопрос об API, выпущенном после того, как у агента OpenHands закончились данные для обучения, агент сфабриковал детали API, которые соответствовали описанию. All Hands AI утверждает, что работает над системами, позволяющими отлавливать такие галлюцинации до того, как они могут причинить вред, но простого решения не существует.
Пожалуй, лучшим показателем прогресса агентного программирования являются таблицы лидеров SWE-Bench, где разработчики могут проверить свои модели на соответствие набору нерешенных проблем из открытых репозиториев GitHub. В настоящее время OpenHands занимает первое место в проверенной таблице лидеров, решив 65,8 % проблемного набора. OpenAI утверждает, что одна из моделей Codex, codex-1, способна на большее, указав в своем анонсе результат 72,1 %, хотя этот результат сопровождается некоторыми оговорками и не был проверен независимыми экспертами.
Многие представители технологической индустрии обеспокоены тем, что высокие результаты в бенчмарках не всегда означают, что кодирование с помощью агентов действительно не требует усилий. Если агенты смогут решить только три из каждых четырех задач, им потребуется значительный контроль со стороны разработчиков - особенно при работе со сложными системами, состоящими из нескольких этапов.
Как и большинство инструментов искусственного интеллекта, надежда на то, что совершенствование базовых моделей будет происходить постоянными темпами, что в конечном итоге позволит системам агентного кодирования превратиться в надежный инструмент разработчика.
Но поиск способов управления галлюцинациями и другими проблемами надежности будет иметь решающее значение для достижения этой цели.
«Я думаю, что существует небольшой эффект звукового барьера», - говорит Бреннан. «Вопрос в том, насколько вы можете доверять агентам, чтобы в итоге они не отвлекали вас от работы?»
Оригинал
Уникальность
Реклама: ⚡ More-Ex: инвойсы, наличка, перестановки — просто напишите нам!