Фонд Arc Prize, некоммерческая организация, одним из основателей которой является известный исследователь ИИ Франсуа Шолле, объявил в понедельник в своем блоге о создании нового сложного теста для измерения общего интеллекта ведущих моделей ИИ.
Пока что новый тест, получивший название ARC-AGI-2, поставил в тупик большинство моделей.
«Разумные» модели ИИ, такие как o1-pro от OpenAI и R1 от DeepSeek, набирают от 1 % до 1,3 % в ARC-AGI-2, согласно таблице лидеров Arc Prize. Мощные нерассуждающие модели, такие как GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, набрали около 1 %.
Тесты ARC-AGI состоят из задач, похожих на головоломки, в которых ИИ должен определить визуальные паттерны из набора разноцветных квадратов и сгенерировать правильную сетку «ответа». Задачи были разработаны таким образом, чтобы заставить ИИ адаптироваться к новым проблемам, с которыми он раньше не сталкивался.
Фонд Arc Prize Foundation попросил более 400 человек пройти ARC-AGI-2, чтобы установить человеческий уровень. В среднем «группы» этих людей правильно ответили на 60 % вопросов теста - гораздо лучше, чем у моделей.
В своем посте на сайте X Чоллет утверждает, что ARC-AGI-2 является более точным показателем реального интеллекта модели ИИ, чем первая итерация теста, ARC-AGI-1. Тесты Arc Prize Foundation направлены на оценку того, может ли система искусственного интеллекта эффективно приобретать новые навыки за пределами данных, на которых она обучалась.
Чолле отметил, что, в отличие от ARC-AGI-1, новый тест не позволяет моделям ИИ полагаться на «грубую силу» - большие вычислительные мощности - для поиска решений. Ранее Чоллет признавал, что это было главным недостатком ARC-AGI-1.
Чтобы устранить недостатки первого теста, ARC-AGI-2 вводит новую метрику: эффективность. Он также требует от моделей интерпретировать шаблоны на лету, а не полагаться на запоминание.
«Интеллект определяется не только способностью решать задачи или достигать высоких результатов», - написал в своем блоге соучредитель Arc Prize Foundation Грег Камрадт. Эффективность, с которой эти способности приобретаются и применяются, является важнейшим, определяющим компонентом». Основной вопрос, который мы задаем, заключается не только в том, «Может ли ИИ приобрести навыки для решения задачи?», но и в том, «С какой эффективностью или ценой?».
ARC-AGI-1 оставался непобедимым в течение примерно пяти лет, вплоть до декабря 2024 года, когда OpenAI выпустила свою продвинутую модель рассуждений o3, которая превзошла все остальные модели ИИ и сравнялась с человеческими показателями в оценке. Однако, как мы уже отмечали, за прирост производительности o3 в ARC-AGI-1 пришлось заплатить немалую цену.
Версия модели o3 от OpenAI - o3 (low) - которая первой достигла новых высот на ARC-AGI-1, набрав 75,7 % баллов, получила всего 4 % на ARC-AGI-2, используя вычислительную мощность в 200 долларов за задачу.
Появление ARC-AGI-2 произошло в тот момент, когда многие представители технологической индустрии призывают к созданию новых, ненасыщенных эталонов для оценки прогресса ИИ. Соучредитель Hugging Face Томас Вольф недавно сказал TechCrunch, что в индустрии ИИ не хватает тестов для измерения ключевых характеристик так называемого искусственного общего интеллекта, включая креативность.
Вместе с новым эталоном фонд Arc Prize объявил о новом конкурсе Arc Prize 2025, в котором разработчикам предлагается достичь 85 % точности в тесте ARC-AGI-2, потратив при этом всего 0,42 доллара на задачу.
Оригинал
Уникальность