Список неофициальных, странных эталонов ИИ продолжает расти. За последние несколько дней некоторые представители сообщества ИИ на X стали одержимы тестом на то, как различные модели ИИ, в частности так называемые рассуждающие модели, справляются с такими заданиями, как: «Напишите скрипт на Python для прыгающего желтого шарика внутри фигуры.
Заставьте форму медленно вращаться и убедитесь, что мяч остается внутри формы». Некоторые модели справляются с задачей «мяч во вращающейся форме» лучше, чем другие. По словам одного из пользователей X, свободно распространяемая модель R1 китайской лаборатории искусственного интеллекта DeepSeek обошла по популярности режим o1 pro от OpenAI, который стоит 200 долларов в месяц в рамках тарифного плана ChatGPT Pro от OpenAI. По словам другого пользователя X, модели Claude 3.5 Sonnet от Anthropic и Gemini 1.5 Pro от Google неправильно оценили физику, в результате чего шар вышел из формы.
Другие пользователи сообщили, что Gemini 2.0 Flash Thinking Experimental от Google и даже более старый GPT-4o от OpenAI справились с оценкой с первого раза. Но что доказывает, что ИИ может или не может закодировать вращающуюся фигуру, содержащую шар? Моделирование прыгающего мяча - это классическая задача программирования. Точные симуляции включают алгоритмы обнаружения столкновений, которые пытаются определить, когда два объекта (например, мяч и сторона фигуры) сталкиваются. Плохо написанные алгоритмы могут повлиять на производительность симуляции или привести к очевидным ошибкам в физике.
Пользователь X N8 Programs, исследователь, работающий в ИИ-стартапе Nous Research, говорит, что ему потребовалось около двух часов, чтобы с нуля запрограммировать прыгающий мяч во вращающемся семиугольнике. «Нужно отслеживать несколько систем координат, то, как происходят столкновения в каждой из них, и с самого начала разрабатывать код, чтобы он был надежным», - объясняет N8 Programs в своем сообщении. Но если прыгающие мячи и вращающиеся фигуры - это разумная проверка навыков программирования, то для ИИ они не слишком эмпирический критерий.
Даже незначительные изменения в подсказках могут привести - и приводят - к разным результатам. Вот почему некоторые пользователи X сообщают, что им больше повезло с o1, а другие говорят, что R1 не справляется. Подобные вирусные тесты указывают на неразрешимую проблему создания полезных систем измерения для моделей ИИ. Зачастую сложно сказать, что отличает одну модель от другой, за исключением эзотерических показателей, которые не имеют значения для большинства людей.
В настоящее время предпринимаются многочисленные усилия по созданию более эффективных тестов, таких как эталон ARC-AGI и «Последний экзамен человечества». Посмотрим, как они себя покажут, а пока смотрите GIF-изображения мячей, прыгающих по вращающимся формам.
Оригинал
Уникальность