Даже некоторые из лучших ИИ не могут превзойти этот новый эталон

Asal · 24.01.2025

Некоммерческая организация Center for AI Safety (CAIS) и компания Scale AI, предоставляющая ряд услуг по маркировке данных и разработке ИИ, выпустили новый сложный эталон для передовых систем ИИ.

Эталон, получивший название «Последний экзамен человечества», включает в себя тысячи вопросов, собранных на основе краудсорсинга и затрагивающих такие темы, как математика, гуманитарные и естественные науки. Чтобы сделать оценку более жесткой, вопросы представлены в нескольких форматах, включая форматы с диаграммами и изображениями.

По результатам предварительного исследования, ни одна из общедоступных флагманских систем искусственного интеллекта не смогла набрать более 10 % баллов на «Последнем экзамене человечества».

CAIS и Scale AI заявляют, что планируют открыть бенчмарк для исследовательского сообщества, чтобы ученые могли «глубже вникнуть в вариации» и оценить новые модели ИИ.

Оригинал
Уникальность

Даже некоторые из лучших ИИ не могут превзойти этот новый эталон

Похожие темы