Новый сложный тест AGI ставит в тупик большинство моделей ИИ

Asal · 25.03.2025

Фонд Arc Prize, некоммерческая организация, одним из основателей которой является известный исследователь ИИ Франсуа Шолле, объявил в понедельник в своем блоге о создании нового сложного теста для измерения общего интеллекта ведущих моделей ИИ.
Пока что новый тест, получивший название ARC-AGI-2, поставил в тупик большинство моделей.

«Разумные» модели ИИ, такие как o1-pro от OpenAI и R1 от DeepSeek, набирают от 1 % до 1,3 % в ARC-AGI-2, согласно таблице лидеров Arc Prize. Мощные нерассуждающие модели, такие как GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, набрали около 1 %.

Тесты ARC-AGI состоят из задач, похожих на головоломки, в которых ИИ должен определить визуальные паттерны из набора разноцветных квадратов и сгенерировать правильную сетку «ответа». Задачи были разработаны таким образом, чтобы заставить ИИ адаптироваться к новым проблемам, с которыми он раньше не сталкивался.
Фонд Arc Prize Foundation попросил более 400 человек пройти ARC-AGI-2, чтобы установить человеческий уровень. В среднем «группы» этих людей правильно ответили на 60 % вопросов теста - гораздо лучше, чем у моделей.

В своем посте на сайте X Чоллет утверждает, что ARC-AGI-2 является более точным показателем реального интеллекта модели ИИ, чем первая итерация теста, ARC-AGI-1. Тесты Arc Prize Foundation направлены на оценку того, может ли система искусственного интеллекта эффективно приобретать новые навыки за пределами данных, на которых она обучалась.

Чолле отметил, что, в отличие от ARC-AGI-1, новый тест не позволяет моделям ИИ полагаться на «грубую силу» - большие вычислительные мощности - для поиска решений. Ранее Чоллет признавал, что это было главным недостатком ARC-AGI-1.

Чтобы устранить недостатки первого теста, ARC-AGI-2 вводит новую метрику: эффективность. Он также требует от моделей интерпретировать шаблоны на лету, а не полагаться на запоминание.

«Интеллект определяется не только способностью решать задачи или достигать высоких результатов», - написал в своем блоге соучредитель Arc Prize Foundation Грег Камрадт. Эффективность, с которой эти способности приобретаются и применяются, является важнейшим, определяющим компонентом». Основной вопрос, который мы задаем, заключается не только в том, «Может ли ИИ приобрести навыки для решения задачи?», но и в том, «С какой эффективностью или ценой?».

ARC-AGI-1 оставался непобедимым в течение примерно пяти лет, вплоть до декабря 2024 года, когда OpenAI выпустила свою продвинутую модель рассуждений o3, которая превзошла все остальные модели ИИ и сравнялась с человеческими показателями в оценке. Однако, как мы уже отмечали, за прирост производительности o3 в ARC-AGI-1 пришлось заплатить немалую цену.

Версия модели o3 от OpenAI - o3 (low) - которая первой достигла новых высот на ARC-AGI-1, набрав 75,7 % баллов, получила всего 4 % на ARC-AGI-2, используя вычислительную мощность в 200 долларов за задачу.

Появление ARC-AGI-2 произошло в тот момент, когда многие представители технологической индустрии призывают к созданию новых, ненасыщенных эталонов для оценки прогресса ИИ. Соучредитель Hugging Face Томас Вольф недавно сказал TechCrunch, что в индустрии ИИ не хватает тестов для измерения ключевых характеристик так называемого искусственного общего интеллекта, включая креативность.

Вместе с новым эталоном фонд Arc Prize объявил о новом конкурсе Arc Prize 2025, в котором разработчикам предлагается достичь 85 % точности в тесте ARC-AGI-2, потратив при этом всего 0,42 доллара на задачу.

Оригинал

Уникальность

Новый сложный тест AGI ставит в тупик большинство моделей ИИ

Похожие темы