• Добро пожаловать на инвестиционный форум!

    Во всем многообразии инвестиций трудно разобраться. MMGP станет вашим надежным помощником и путеводителем в мире инвестиций. Только самые последние тренды, передовые технологии и новые возможности. 400 тысяч пользователей уже выбрали нас. Самые актуальные новости, проверенные стратегии и способы заработка. Сюда люди приходят поделиться своим опытом, найти и обсудить новые перспективы. 16 миллионов сообщений, оставленных нашими пользователями, содержат их бесценный опыт и знания. Присоединяйтесь и вы!

    Впрочем, для начала надо зарегистрироваться!
  • 🐑 Моисей водил бесплатно. А мы платим, хотя тоже планируем работать 40 лет! Принимай участие в партнеской программе MMGP
  • 📝 Знаешь буквы и умеешь их компоновать? Платим. Дорого. Бессрочная акция от MMGP: "ОПЛАТА ЗА СООБЩЕНИЯ"
  • 💰 В данном разделе действует акция с оплатой за новые публикации
  • 📌 Внимание! Перед публикацией новостей ознакомьтесь с правилами новостных разделов

Эти исследователи использовали вопросы NPR Sunday Puzzle для сравнительного анализа моделей «рассуждений» ИИ.

Гуха.jpg

Каждое воскресенье ведущий NPR Уилл Шортц, гуру кроссвордов The New York Times, задает вопросы тысячам слушателей в долгоиграющем сегменте под названием «Воскресная головоломка». Хотя головоломки написаны так, чтобы их можно было разгадать без особых предварительных знаний, они обычно оказываются сложными даже для опытных участников.

Поэтому некоторые эксперты считают их перспективным способом проверить пределы возможностей искусственного интеллекта в решении задач. В новом исследовании группа ученых из Колледжа Уэлсли, Оберлинского колледжа, Техасского университета в Остине, Северо-Восточного университета и стартапа Cursor создала эталон ИИ, используя загадки из эпизодов Sunday Puzzle. Команда говорит, что их тест выявил удивительные факты, например, что так называемые модели рассуждений - в частности, o1 от OpenAI - иногда «сдаются» и дают ответы, которые, как они знают, не являются правильными.

«Мы хотели разработать эталон с проблемами, которые человек может понять, обладая лишь общими знаниями», - сказал TechCrunch Арджун Гуха, преподаватель факультета информатики Северо-Восточного университета и один из соавторов исследования. В настоящее время индустрия ИИ находится в затруднительном положении с точки зрения бенчмаркинга.

Большинство тестов, используемых для оценки моделей ИИ, направлены на проверку навыков, например, компетентности в вопросах математики и естественных наук на уровне доктора наук, которые не имеют отношения к обычному пользователю. Между тем, многие эталоны - даже выпущенные относительно недавно - быстро приближаются к насыщению.

Преимущества игры-викторины на общественном радио, такой как Sunday Puzzle, в том, что она не проверяет эзотерические знания, а задачи сформулированы так, что модели не могут использовать «заучивание» для их решения, объясняет Гуха. «Я думаю, что сложность этих задач заключается в том, что очень трудно добиться значимого прогресса в решении проблемы, пока вы ее не решите - именно тогда все сразу встает на свои места», - говорит Гуха. «Это требует сочетания проницательности и процесса исключения».

Конечно, ни один эталон не является идеальным. Sunday Puzzle ориентирована на США и проводится только на английском языке. А поскольку викторины находятся в открытом доступе, возможно, что модели тренируются на них и могут в каком-то смысле «обманывать», хотя Гуха говорит, что не видел доказательств этого. «Новые вопросы появляются каждую неделю, и мы можем ожидать, что последние вопросы будут действительно невиданными», - добавил он.

«Мы намерены постоянно обновлять эталон и отслеживать, как меняется производительность модели с течением времени». В эталоне, состоящем из 600 загадок Sunday Puzzle, модели рассуждений, такие как o1 и DeepSeek's R1, значительно превзошли остальные.

Рассуждающие модели тщательно проверяют факты, прежде чем выдать результат, что помогает им избежать некоторых подводных камней, которые обычно подстерегают модели ИИ. Компромисс заключается в том, что рассуждающим моделям требуется немного больше времени, чтобы прийти к решению - обычно от нескольких секунд до нескольких минут.

По крайней мере одна модель, R1 от DeepSeek, дает заведомо неверные решения на некоторые вопросы Sunday Puzzle. R1 дословно произносит «Я сдаюсь», после чего следует неправильный ответ, выбранный, похоже, наугад, - поведение, которое человек, безусловно, может понять. Модели принимают и другие странные решения, например, дают неправильный ответ, но тут же отказываются от него, пытаются найти лучший вариант и снова терпят неудачу. Они также застревают в «раздумьях» навечно и дают бессмысленные объяснения ответам, либо сразу приходят к правильному ответу, но затем без видимых причин рассматривают альтернативные варианты. На трудных задачах R1 буквально говорит, что «расстраивается», - говорит Гуха.

«Было забавно наблюдать, как модель имитирует то, что может сказать человек. Еще предстоит выяснить, как «разочарование» в рассуждениях может повлиять на качество результатов моделирования». На данный момент лучшей моделью в бенчмарке является o1 с результатом 59 %, за ней следует недавно выпущенная o3-mini, настроенная на высокие «усилия в рассуждениях» (47 %). (R1 набрала 35 %.) В качестве следующего шага исследователи планируют расширить тестирование на другие модели рассуждений, что, как они надеются, поможет выявить области, в которых эти модели могут быть улучшены.

Оригинал
Уникальность
 

Похожие темы

Сверху Снизу