Команда исследователей ИИ из Калифорнийского университета в Беркли под руководством кандидата наук Цзяи Пэна утверждает, что воспроизвела основные технологии DeepSeek R1-Zero всего за 30 долларов, продемонстрировав, что передовые модели могут быть реализованы по доступной цене. По словам Цзяи Пань на сайте Nitter, их команда воспроизвела DeepSeek R1-Zero в игре Countdown, и небольшая языковая модель с 3 миллиардами параметров развила способности к самопроверке и поиску благодаря обучению с подкреплением.
По словам Пэна, они начали с базовой языковой модели, подсказки и вознаграждения за истину. Затем команда запустила обучение с подкреплением на основе игры Countdown. Эта игра основана на одноименном британском игровом шоу, где в одном из сегментов игроки должны найти случайное целевое число из группы других чисел, заданных им с помощью базовой арифметики.
По словам команды, их модель начинала с фиктивных выводов, но со временем разработала такие тактики, как пересмотр и поиск, чтобы найти правильный ответ. Один из примеров показывает, как модель предлагает ответ, проверяет, правильный ли он, и пересматривает его в ходе нескольких итераций, пока не найдет правильное решение.
Помимо «Обратного отсчета», Пан также попробовал умножение на своей модели, и для решения уравнения он использовал другую технику. Он разбил задачу на части, используя распределительное свойство умножения (точно так же, как некоторые из нас делают это при мысленном умножении больших чисел), а затем решил ее шаг за шагом. Команда из Беркли экспериментировала с различными базами для своей модели, основанной на DeepSeek R1-Zero - они начали с модели с 500 миллионами параметров, в которой модель только угадывала возможное решение, а затем останавливалась, независимо от того, нашла она правильный ответ или нет.
Однако, используя базу с 1,5 миллиардами параметров, они начали получать результаты, в которых модели обучались различным техникам для достижения более высоких результатов. Более высокие параметры (от 3 до 7 миллиардов) приводили к тому, что модель находила правильный ответ за меньшее количество шагов.
Но что еще более впечатляет, так это то, что, по утверждению команды из Беркли, все это обошлось всего в 30 долларов. В настоящее время API o1 от OpenAI стоит 15 долларов за миллион входных маркеров - более чем в 27 раз дороже, чем 0,55 доллара за миллион входных маркеров от DeepSeek-R1. По словам Пэна, этот проект призван сделать новые исследования по масштабированию обучения с подкреплением более доступными, особенно благодаря низкой стоимости.
Однако эксперт по машинному обучению Натан Ламберт оспаривает реальную стоимость DeepSeek, утверждая, что заявленная стоимость в 5 миллионов долларов на обучение 671 миллиарда LLM не отражает полной картины. Другие расходы, такие как расходы на исследовательский персонал, инфраструктуру и электроэнергию, по-видимому, не включены в расчеты, и Ламберт считает, что ежегодные операционные расходы DeepSeek AI составляют от 500 миллионов до более чем 1 миллиарда долларов. Тем не менее, это все равно достижение, особенно с учетом того, что конкурирующие американские модели ИИ тратят на свои усилия по созданию искусственного интеллекта 10 миллиардов долларов в год.
Оригинал
Уникальность