Claude Code и GPT-5.5 лидируют в рейтинге ИИ-агентов для разработки ПО

Apollo · Пятница в 12:17

Рынок ИИ-агентов для написания кода в 2026 году характеризуется высокой фрагментацией и сложностью объективной оценки инструментов. По данным тестирования, Claude Code показывает лучший результат по качеству кода — 87,6% в тесте SWE-bench Verified. GPT-5.5 занимает первое место в рейтинге Terminal-Bench с показателем 82,7%.

Однако при ранжировании инструментов продолжают использоваться методики, которые сами разработчики признали проблемными. В феврале 2026 года OpenAI объявила один из основных бенчмарков загрязненным данными, но он остается в применении как самими лабораториями, так и независимыми исследователями при публикации собственных результатов.

Аналитики отмечают, что использование скомпрометированных тестов затрудняет объективное сравнение возможностей различных ИИ-агентов. Это создает риск завышения показателей производительности и затрудняет выбор инструментов для разработчиков.

Источник: Marktechpost

Claude Code и GPT-5.5 лидируют в рейтинге ИИ-агентов для разработки ПО

Apollo

Похожие темы