Китайская DeepSeek выпустила модель AI от OpenAI и предлагает подписку на 90% дешевле

Alcest · 24.01.2025

Китайский стартап DeepSeek, который только недавно продемонстрировал большую языковую модель DeepSeek V3, представил новую версию искусственного интеллекта — DeepSeek-R1. Разработчики утверждают, что она не уступает «продуманной» модели o1 от OpenAI по производительности и доступности.

DeepSeek-R1, как и o1, обучался с использованием метода обучения с подкреплением (RL), но DeepSeek говорит, что в дополнение к этому они использовали контролируемую тонкую настройку, чтобы справиться со сложными задачами на рассуждение и соответствовать производительности o1. Об этом сообщает VentureBeat.

Чтобы продемонстрировать преимущества своего подхода, компания DeepSeek использовала R1 для выделения шести моделей Llama и Qwen, подняв их производительность на новый уровень. В одном случае дистиллированная версия Qwen-1.5B превзошла гораздо более крупные модели, GPT-4o и Claude 3.5 Sonnet, в отдельных математических тестах.

Эти модели, как и основная R1, были разработаны в открытом исходном коде и доступны на Hugging Face по лицензии Массачусетского технологического института.

Во время тестирования DeepSeek-R1 набрал 79,8% баллов по математическим тестам AIME 2024 и 97,3% по тесту MATH-500. Он также получил 2029 баллов на Codeforces, опередив 96,3% программистов-людей. В этих тестах версия o1-1217 набрала 79,2%, 96,4% и 96,6% соответственно. В тесте на общие знания MMLU R1 немного уступал с точностью 90,8% против 91,8% в o1.

Эффективность DeepSeek-R1 называют большим достижением китайского стартапа в области искусственного интеллекта, в котором в настоящее время преимущественно доминируют американские компании. Кроме того, DeepSeek работает по модели с открытым исходным кодом и даже предоставляет доступ к учебным материалам.

Еще одним преимуществом DeepSeek для пользователей является его ценовая политика. OpenAI предоставляет доступ к o1 по цене $15 за миллион входных токенов и $60 за миллион выходных токенов. Вместо этого DeepSeek Reasoner, основанный на модели R1, стоит $0,55 за миллион входных токенов и $2,19 за миллион выходных токенов.

В настоящее время модель можно протестировать на чат-платформе DeepSee k, которая напоминает ChatGPT. Пользователи также могут получить доступ к весам моделей и репозиторию кода через Hugging Face под лицензией MIT или использовать API для прямой интеграции.

по материалам
уникальность

Китайская DeepSeek выпустила модель AI от OpenAI и предлагает подписку на 90% дешевле

Похожие темы