• Добро пожаловать на инвестиционный форум!

    Во всем многообразии инвестиций трудно разобраться. MMGP станет вашим надежным помощником и путеводителем в мире инвестиций. Только самые последние тренды, передовые технологии и новые возможности. 400 тысяч пользователей уже выбрали нас. Самые актуальные новости, проверенные стратегии и способы заработка. Сюда люди приходят поделиться своим опытом, найти и обсудить новые перспективы. 16 миллионов сообщений, оставленных нашими пользователями, содержат их бесценный опыт и знания. Присоединяйтесь и вы!

    Впрочем, для начала надо зарегистрироваться!
  • 🐑 Моисей водил бесплатно. А мы платим, хотя тоже планируем работать 40 лет! Принимай участие в партнеской программе MMGP
  • 📝 Знаешь буквы и умеешь их компоновать? Платим. Дорого. Бессрочная акция от MMGP: "ОПЛАТА ЗА СООБЩЕНИЯ"
  • 💰 В данном разделе действует акция с оплатой за новые публикации
  • 📌 Внимание! Перед публикацией новостей ознакомьтесь с правилами новостных разделов

Некоторые эксперты утверждают, что краудсорсинговые тесты ИИ имеют серьезные недостатки

Роботы.jpg

Лаборатории ИИ все больше полагаются на краудсорсинговые платформы, такие как Chatbot Arena, чтобы проверить сильные и слабые стороны своих последних моделей. Но некоторые эксперты говорят, что у такого подхода есть серьезные проблемы с этической и академической точек зрения.

За последние несколько лет такие лаборатории, как OpenAI, Google и Meta, обратились к платформам, которые набирают пользователей для оценки возможностей новых моделей. Когда модель получает положительную оценку, лаборатория, создавшая ее, часто преподносит ее как свидетельство значительного улучшения.

Однако такой подход является ошибочным, считает Эмили Бендер, профессор лингвистики Вашингтонского университета и соавтор книги «ИИ против». Бендер особенно не нравится игра Chatbot Arena, в которой добровольцам предлагается ответить на вопросы двух анонимных моделей и выбрать тот ответ, который им больше нравится.

«Чтобы быть валидным, эталон должен измерять что-то конкретное, и он должен обладать конструктивной валидностью - то есть должны быть доказательства того, что интересующая нас конструкция четко определена и что измерения действительно связаны с этой конструкцией», - говорит Бендер. «Chatbot Arena не показала, что голосование за один результат, а не за другой, действительно коррелирует с предпочтениями, как бы они ни определялись».

Асмелаш Тека Хадгу, соучредитель ИИ-компании Lesan и научный сотрудник Исследовательского института распределенного ИИ, сказал, что, по его мнению, такие эталоны, как Chatbot Arena, «кооптируются» ИИ-лабораториями для «продвижения преувеличенных заявлений». Хадгу указал на недавний спор, связанный с моделью Llama 4 Maverick компании Meta. Meta доработала версию Maverick, чтобы получить высокие результаты в Chatbot Arena, но затем отказалась от нее в пользу выпуска версии с худшими показателями.

«Эталоны должны быть динамичными, а не статичными наборами данных, - говорит Хадгу, - распределенными по нескольким независимым организациям, таким как организации или университеты, и специально разработанными для конкретных случаев использования, таких как образование, здравоохранение и другие области, в которых работают специалисты-практики, использующие эти [модели] в работе».

Хадгу и Кристин Глория, которая ранее возглавляла инициативу Aspen Institute's Emergent and Intelligent Technologies Initiative, также привели доводы в пользу того, что оценщики моделей должны получать вознаграждение за свою работу. Глория заявила, что лаборатории ИИ должны учиться на ошибках индустрии маркировки данных, которая печально известна своей эксплуататорской практикой. (Некоторые лаборатории были обвинены в том же.)

«В целом, краудсорсинговый процесс бенчмаркинга ценен и напоминает мне инициативы в области гражданской науки», - сказала Глория. "В идеале он помогает привлечь дополнительные точки зрения, чтобы обеспечить некоторую глубину оценки и уточнения данных. Но контрольные показатели никогда не должны быть единственной метрикой для оценки. В условиях быстрого развития отрасли и инноваций контрольные показатели могут быстро стать ненадежными".

Мэтт Фредриксон, генеральный директор компании Gray Swan AI, которая проводит краудсорсинговые кампании по привлечению моделей в красную команду, говорит, что добровольцев привлекает платформа Gray Swan по целому ряду причин, включая «обучение и отработку новых навыков». (Gray Swan также присуждает денежные призы за некоторые тесты). Тем не менее, он признал, что публичные эталоны «не заменяют» «платные частные» оценки.

Разработчикам также необходимо опираться на внутренние эталоны, алгоритмические «красные команды» и нанятых по контракту специалистов, которые могут использовать более открытый подход или привнести специфический опыт в конкретную область", - сказал Фредриксон. «Важно, чтобы разработчики моделей и бенчмарков, как краудсорсинговых, так и других, четко доносили результаты до тех, кто за ними следит, и реагировали, когда их ставят под сомнение».

Алекс Аталла (Alex Atallah), генеральный директор рынка моделей OpenRouter, который недавно заключил партнерство с OpenAI, чтобы предоставить пользователям ранний доступ к моделям GPT-4.1 от OpenAI, сказал, что одного открытого тестирования и бенчмаркинга моделей «недостаточно». Так же считает и Вей-Лин Чианг, докторант по ИИ в Калифорнийском университете в Беркли и один из основателей компании LMArena, которая поддерживает Chatbot Arena.

«Мы, конечно, поддерживаем использование других тестов», - сказал Чианг. «Наша цель - создать надежную, открытую площадку, которая измеряет предпочтения нашего сообщества в отношении различных моделей ИИ».

Чианг сказал, что такие инциденты, как несоответствие эталонов Maverick, не являются результатом недостатков в дизайне Chatbot Arena, а скорее лабораториями, неправильно интерпретирующими ее политику. По словам Чианга, LMArena предприняла шаги, чтобы предотвратить расхождения в будущем, в том числе обновила свои правила, чтобы «усилить нашу приверженность справедливым, воспроизводимым оценкам».

«Наше сообщество здесь не в качестве добровольцев или испытателей моделей», - сказал Чианг. Люди используют LMArena, потому что мы предоставляем им открытое, прозрачное место для взаимодействия с ИИ и коллективной обратной связи". Пока таблица лидеров точно отражает мнение сообщества, мы приветствуем ее распространение".

Оригинал

Уникальность
 
Сверху Снизу