Думали, что Pokemon - это сложный эталон для ИИ? Одна группа исследователей утверждает, что Super Mario Bros. еще сложнее. Hao AI Lab, исследовательская организация при Калифорнийском университете в Сан-Диего, в пятницу запустила ИИ в игры Super Mario Bros. Лучше всего показал себя Claude 3.7 от Anthropic, за ним следует Claude 3.5. Gemini 1.5 Pro от Google и GPT-4o от OpenAI справились с трудностями.
Стоит отметить, что это была не совсем та же версия Super Mario Bros., что и оригинальный релиз 1985 года. Игра запускалась в эмуляторе и интегрировалась с фреймворком GamingAgent, чтобы дать ИИ контроль над Марио. GamingAgent, который Хао разработал самостоятельно, передавал ИИ основные инструкции, например, «Если рядом препятствие или враг, двигайтесь/прыгайте влево, чтобы уклониться», и внутриигровые скриншоты. Затем ИИ генерировал вводные данные в виде кода на языке Python для управления Марио.
Тем не менее, по словам Хао, игра заставляла каждую модель «учиться» планировать сложные маневры и разрабатывать игровые стратегии. Интересно, что лаборатория обнаружила, что рассуждающие модели, такие как o1 от OpenAI, которые «думают» над проблемами шаг за шагом, чтобы прийти к решению, работают хуже, чем «не рассуждающие» модели, несмотря на то, что в целом они сильнее в большинстве бенчмарков.
По словам исследователей, одна из главных причин, по которой рассуждающие модели испытывают трудности в подобных играх в реальном времени, заключается в том, что им требуется некоторое время - обычно несколько секунд - для принятия решения о действиях. В Super Mario Bros. время - это все. Секунда может означать разницу между безопасным прыжком и гибелью.
Игры используются для оценки искусственного интеллекта уже несколько десятилетий. Но некоторые эксперты ставят под сомнение целесообразность установления связи между игровыми навыками ИИ и технологическим прогрессом. В отличие от реального мира, игры, как правило, абстрактны и относительно просты, и они предоставляют теоретически бесконечное количество данных для обучения ИИ. Недавние яркие игровые бенчмарки указывают на то, что Андрей Карпати, ученый-исследователь и основатель OpenAI, назвал «кризисом оценки».
«Я не знаю, на какие показатели [ИИ] сейчас смотреть», - написал он в посте на сайте X. „TLDR моя реакция такова: я не знаю, насколько хороши эти модели сейчас“. По крайней мере, мы можем посмотреть, как ИИ играет в Марио.
Оригинал
Уникальность