Некоммерческая организация Center for AI Safety (CAIS) и компания Scale AI, предоставляющая ряд услуг по маркировке данных и разработке ИИ, выпустили новый сложный эталон для передовых систем ИИ.
Эталон, получивший название «Последний экзамен человечества», включает в себя тысячи вопросов, собранных на основе краудсорсинга и затрагивающих такие темы, как математика, гуманитарные и естественные науки. Чтобы сделать оценку более жесткой, вопросы представлены в нескольких форматах, включая форматы с диаграммами и изображениями.
По результатам предварительного исследования, ни одна из общедоступных флагманских систем искусственного интеллекта не смогла набрать более 10 % баллов на «Последнем экзамене человечества».
CAIS и Scale AI заявляют, что планируют открыть бенчмарк для исследовательского сообщества, чтобы ученые могли «глубже вникнуть в вариации» и оценить новые модели ИИ.
Оригинал
Уникальность