Известный тест на искусственный интеллект (ИИ) близок к разгадке, но создатели теста говорят, что это скорее указывает на недостатки в его конструкции, чем на настоящий прорыв в исследованиях.
В 2019 году Франсуа Шолле, одна из ведущих фигур в мире ИИ, представил эталон ARC-AGI, сокращение от «Корпус абстракций и рассуждений для искусственного общего интеллекта». Разработанный для оценки того, может ли система ИИ эффективно приобретать новые навыки за пределами данных, на которых она обучалась, ARC-AGI, по словам Франсуа, остается единственным тестом ИИ для измерения прогресса на пути к общему интеллекту (хотя были предложены и другие).
До этого года самый успешный ИИ мог решить лишь чуть менее трети задач в ARC-AGI. Чолле обвинил в этом индустрию, сосредоточившуюся на больших языковых моделях (LLM), которые, по его мнению, не способны к реальным «рассуждениям».
«LLM испытывают трудности с обобщением, поскольку полностью зависят от запоминания», - заявил он в серии постов на сайте X в феврале. «Они ломаются на всем, что не было в их обучающих данных».
По мнению Чолле, LLM - это статистические машины. Обученные на большом количестве примеров, они изучают закономерности в этих примерах, чтобы делать прогнозы - например, как «кому» в электронном письме обычно предшествует «это может касаться».
Чоллет утверждает, что, хотя LLM и способны запоминать «шаблоны рассуждений», они вряд ли смогут генерировать «новые рассуждения» на основе новых ситуаций. «Если вам нужно обучаться на многих примерах шаблона, даже если он неявный, чтобы выучить многоразовое представление для него, вы запоминаете», - утверждает Чоллет в другом посте.
Чтобы стимулировать исследования, выходящие за рамки LLM, в июне Чоллет и соучредитель Zapier Майк Кнуп объявили конкурс на 1 миллион долларов, чтобы создать ИИ с открытым исходным кодом, способный победить ARC-AGI. Из 17 789 заявок лучший набрал 55,5 % - примерно на 20 % больше, чем лучший игрок 2023 года, хотя и не достиг порога в 85 %, «человеческого уровня», необходимого для победы.
Однако это не означает, что мы на 20% приблизились к AGI, говорит Кнуп.
В своем блоге Кнуп отметил, что многие задачи ARC-AGI были решены «грубой силой», что говорит о том, что «большая часть» задач ARC-AGI «[не] несет в себе много полезного сигнала в сторону общего интеллекта».
ARC-AGI состоит из задач, похожих на головоломки, в которых ИИ должен сгенерировать правильную сетку «ответа» из набора разноцветных квадратов. Эти задачи были разработаны для того, чтобы заставить ИИ адаптироваться к новым проблемам, с которыми он раньше не сталкивался. Но пока не ясно, удалось ли им этого добиться.
«[ARC-AGI] не менялся с 2019 года и не является совершенным», - признал Кнуп в своем сообщении.
Франсуа и Кнуп также подверглись критике за то, что преувеличивают значение ARC-AGI как ориентира для достижения AGI, особенно учитывая, что само определение AGI сейчас вызывает жаркие споры. Один из сотрудников OpenAI недавно заявил, что AGI «уже» достигнут, если определять AGI как ИИ, «превосходящий человека в большинстве задач».
Кнуп и Чолле говорят, что планируют выпустить эталон ARC-AGI второго поколения, чтобы решить эти вопросы, а также провести конкурс в 2025 году. «Мы продолжим направлять усилия исследовательского сообщества на решение наиболее важных, на наш взгляд, нерешенных проблем в области ИИ и ускорим сроки создания AGI», - написал Чоллет в сообщении X.
Исправить ситуацию, скорее всего, будет нелегко. Если недостатки первого теста ARC-AGI свидетельствуют о том, что определение интеллекта для ИИ будет таким же трудноразрешимым - и полярным - как и для человека.
Оригинал
Уникальность