Новая статья, подготовленная лабораторией ИИ Cohere, Стэнфордом, Массачусетским технологическим институтом и Ai2, обвиняет LM Arena, организацию, стоящую за популярным краудсорсинговым ИИ-бенчмарком Chatbot Arena, в том, что она помогала избранной группе ИИ-компаний добиваться лучших результатов в таблице лидеров за счет конкурентов.
По мнению авторов, LM Arena позволила некоторым ведущим ИИ-компаниям, таким как Meta, OpenAI, Google и Amazon, в частном порядке протестировать несколько вариантов ИИ-моделей, а затем не публиковать результаты самых низких. Таким образом, этим компаниям было проще занять первое место в таблице лидеров платформы, хотя такая возможность была предоставлена не всем компаниям, отмечают авторы.
«Лишь немногим [компаниям] было сказано, что это частное тестирование доступно, и количество частных тестов, которые получили некоторые [компании], оказалось намного больше, чем у других», - сказала вице-президент Cohere по исследованиям в области ИИ и соавтор исследования Сара Хукер в интервью TechCrunch. «Это и есть геймификация».
Chatbot Arena, созданная в 2023 году как академический исследовательский проект Калифорнийского университета в Беркли, стала эталоном для ИИ-компаний. В ней ответы двух разных моделей ИИ выставляются в «битве» друг с другом, а пользователям предлагается выбрать лучший. Нередко на арене под псевдонимом соревнуются еще не выпущенные модели.
Голоса со временем определяют количество баллов модели и, соответственно, ее место в таблице лидеров Chatbot Arena. Хотя в Chatbot Arena участвуют многие коммерческие актеры, LM Arena долгое время утверждала, что ее критерий беспристрастен и справедлив.
Однако авторы статьи утверждают, что обнаружили не это.
Одна из компаний, занимающаяся разработкой искусственного интеллекта, Meta, смогла в частном порядке протестировать 27 вариантов моделей на Chatbot Arena в период с января по март, предшествовавший выпуску Llama 4, утверждают авторы. В момент запуска Meta публично раскрыла результаты только одной модели - той, что оказалась на вершине таблицы лидеров Chatbot Arena.
В электронном письме TechCrunch соучредитель LM Arena и профессор Калифорнийского университета в Беркли Ион Стоика заявил, что в исследовании много «неточностей» и «сомнительного анализа».
«Мы стремимся к справедливой оценке, проводимой сообществом, и приглашаем всех поставщиков моделей предоставлять больше моделей для тестирования и улучшения их характеристик в зависимости от предпочтений людей», - говорится в заявлении LM Arena, предоставленном TechCrunch. «Если поставщик моделей решил представить больше тестов, чем другой поставщик моделей, это не означает, что со вторым поставщиком моделей поступают несправедливо».
Арманд Жулен, главный исследователь Google DeepMind, также отметил в посте на сайте X, что некоторые цифры исследования были неточными, утверждая, что Google отправила в LM Arena только одну модель ИИ Gemma 3 для предрелизного тестирования. Хукер ответил Жулену на сайте X, пообещав, что авторы внесут исправления.
Авторы статьи начали проводить исследование в ноябре 2024 года, узнав, что некоторым ИИ-компаниям, возможно, был предоставлен льготный доступ к Chatbot Arena. В общей сложности они измерили более 2,8 миллиона боев Chatbot Arena в течение пяти месяцев.
По словам авторов, они обнаружили доказательства того, что LM Arena позволила некоторым ИИ-компаниям, включая Meta, OpenAI и Google, собрать больше данных из Chatbot Arena, поскольку их модели появлялись в большем количестве «сражений». Такое увеличение частоты выборки давало этим компаниям несправедливое преимущество, утверждают авторы.
Использование дополнительных данных из LM Arena могло бы улучшить показатели модели в Arena Hard, другом бенчмарке, который поддерживает LM Arena, на 112 %. Однако LM Arena в своем сообщении на сайте X заявила, что показатели Arena Hard не имеют прямой зависимости от показателей Chatbot Arena.
Хукер сказал, что неясно, как определенные компании ИИ могли получить приоритетный доступ, но LM Arena обязана повысить свою прозрачность независимо от этого.
В своем сообщении на сайте X компания LM Arena заявила, что некоторые утверждения, содержащиеся в документе, не соответствуют действительности. Организация указала на опубликованное ею ранее на этой неделе сообщение в блоге, в котором говорится, что модели из не самых крупных лабораторий появляются в большем количестве боев Chatbot Arena, чем предполагается в исследовании.
Одно из важных ограничений исследования заключается в том, что оно опиралось на «самоидентификацию», чтобы определить, какие модели ИИ участвовали в частном тестировании на Chatbot Arena. Авторы несколько раз спрашивали у моделей ИИ об их компании происхождения и на основании ответов моделей классифицировали их - метод, который не является надежным.
Однако, по словам Хукера, когда авторы обратились к LM Arena, чтобы поделиться своими предварительными выводами, организация не стала их оспаривать.
TechCrunch обратился за комментариями к Meta, Google, OpenAI и Amazon - все они упоминались в исследовании. Ни одна из них не ответила немедленно.
LM Arena в горячей воде
В статье авторы призывают LM Arena внести ряд изменений, чтобы сделать Chatbot Arena более «справедливой». Например, по мнению авторов, LM Arena могла бы установить четкий и прозрачный лимит на количество частных тестов, которые могут проводить лаборатории искусственного интеллекта, и публично раскрывать результаты этих тестов.
Оригинал
Уникальность