Исследователи ИИ из Стэнфорда и Университета Вашингтона смогли обучить модель «рассуждения» ИИ, потратив менее 50 долларов на облачные вычисления, говорится в новом исследовании, опубликованном в прошлую пятницу. Модель, известная как s1, демонстрирует схожие с передовыми моделями рассуждений, такими как OpenAI's o1 и DeepSeek's R1, результаты в тестах, измеряющих способности к математике и кодированию. Модель s1 доступна на GitHub вместе с данными и кодом, использованными для ее обучения.
Команда, создавшая s1, заявила, что начала с готовой базовой модели, а затем доработала ее с помощью дистилляции - процесса извлечения «рассудочных» способностей из другой модели ИИ путем обучения на ее ответах. По словам исследователей, модель s1 была получена из одной из моделей рассуждений Google, Gemini 2.0 Flash Thinking Experimental. Дистилляция - это тот же подход, который исследователи из Беркли использовали для создания модели ИИ-рассуждения, стоившей в прошлом месяце около 450 долларов.
Для некоторых идея о том, что несколько исследователей, не располагающих миллионами долларов, все еще могут внедрять инновации в области ИИ, является захватывающей. Но s1 поднимает реальные вопросы о коммерциализации моделей ИИ. Где же ров, если кто-то может в точности повторить многомиллионную модель, потратив на это совсем немного денег? Неудивительно, что крупные лаборатории ИИ недовольны. OpenAI обвинила DeepSeek в неправомерном сборе данных из своего API для целей дистилляции моделей.
Исследователи, создавшие s1, стремились найти самый простой подход для достижения высокой производительности рассуждений и «масштабирования по времени тестирования», то есть для того, чтобы модель ИИ могла больше думать, прежде чем ответить на вопрос. Это было одним из достижений OpenAI's o1, которые DeepSeek и другие лаборатории ИИ пытались повторить с помощью различных методов. В работе s1 говорится о том, что модели рассуждений могут быть созданы на относительно небольшом наборе данных с помощью процесса, называемого supervised fine-tuning (SFT), в котором модели ИИ дается явное указание подражать определенному поведению в наборе данных.
SFT, как правило, дешевле, чем крупномасштабный метод обучения с подкреплением, который DeepSeek использовала для обучения своего конкурента модели o1 от OpenAI, R1. Google предлагает бесплатный доступ к Gemini 2.0 Flash Thinking Experimental, хотя и с ежедневными ограничениями, через свою платформу Google AI Studio. Однако условия Google запрещают реинжиниринг моделей для разработки сервисов, конкурирующих с собственными предложениями компании в области ИИ. Мы обратились в Google за комментариями.
S1 основан на небольшой готовой модели ИИ от китайской ИИ-лаборатории Qwen, принадлежащей Alibaba, которую можно скачать бесплатно. Для обучения S1 исследователи создали набор данных, состоящий всего из 1000 тщательно подобранных вопросов, ответов на них, а также «мыслительного» процесса, лежащего в основе каждого ответа, из экспериментальной программы Google Gemini 2.0 Flash Thinking Experimental. По словам исследователей, после обучения s1, которое заняло менее 30 минут с использованием 16 графических процессоров Nvidia H100, s1 показал высокие результаты в некоторых бенчмарках ИИ.
Никлас Муэннигофф, исследователь из Стэнфорда, работавший над проектом, рассказал TechCrunch, что сегодня он мог бы арендовать необходимые вычислительные мощности примерно за 20 долларов. Чтобы заставить s1 перепроверить свою работу и увеличить время «обдумывания», исследователи использовали хитроумный трюк: Они попросили его подождать.
Добавление слова «подождите» во время рассуждений s1 помогло модели получить чуть более точные ответы, говорится в статье. В 2025 году Meta, Google и Microsoft планируют инвестировать сотни миллиардов долларов в инфраструктуру ИИ, которые частично пойдут на обучение моделей ИИ нового поколения. Возможно, такой уровень инвестиций все еще необходим, чтобы расширить границы инноваций в области ИИ. Дистилляция показала себя как хороший метод дешевого воссоздания возможностей модели ИИ, но она не создает новые модели ИИ, значительно превосходящие те, что доступны сегодня.
Оригинал
Уникальность