DeepSeek, китайский ИИ-стартап, утверждает, что обучил модель ИИ, сравнимую с ведущими моделями таких тяжеловесов, как OpenAI, Meta и Anthropic, но при этом в 11 раз сократив объем вычислений на GPU, а значит, и стоимость. Заявления еще не полностью подтверждены, но это поразительное заявление говорит о том, что, хотя санкции США повлияли на доступность оборудования для ИИ в Китае, умные ученые работают над тем, чтобы извлечь максимальную производительность из ограниченного количества оборудования, чтобы уменьшить последствия прекращения поставок чипов для ИИ в Китай.
Компания предоставила открытый доступ к модели и весам, поэтому мы можем ожидать скорого появления результатов тестирования.
Deepseek обучила свою языковую модель DeepSeek-V3 Mixture-of-Experts (MoE) с 671 миллиардом параметров на кластере из 2 048 графических процессоров Nvidia H800 всего за два месяца, что означает 2,8 миллиона GPU-часов, говорится в статье. Для сравнения, компании Meta потребовалось в 11 раз больше вычислительных мощностей (30,8 млн GPU-часов), чтобы обучить Llama 3 с 405 млрд параметров на кластере из 16 384 графических процессоров H100 в течение 54 дней.
DeepSeek утверждает, что ей удалось значительно снизить требования к вычислительным ресурсам и памяти, которые обычно требуются для моделей такого масштаба, используя передовые конвейерные алгоритмы, оптимизированную структуру связи и вычисления с низкой точностью FP8, а также связь.
Компания использовала кластер из 2 048 графических процессоров Nvidia H800, каждый из которых оснащен межсоединениями NVLink для связи между GPU и InfiniBand для связи между узлами. В таких системах межпроцессорные коммуникации достаточно быстры, а межузловые - нет, поэтому оптимизация является ключевым фактором производительности и эффективности. Хотя DeepSeek применила десятки методов оптимизации для снижения требований к вычислениям в DeepSeek-v3, несколько ключевых технологий позволили добиться впечатляющих результатов.
DeepSeek использовала алгоритм DualPipe для перекрытия фаз вычислений и коммуникаций внутри и между прямыми и обратными микропакетами и, следовательно, уменьшения неэффективности конвейера. В частности, операции отправки (маршрутизация токенов экспертам) и объединения (агрегирование результатов) выполнялись параллельно с вычислениями с помощью специализированных инструкций PTX (Parallel Thread Execution), что означает написание низкоуровневого специализированного кода, предназначенного для взаимодействия с графическими процессорами Nvidia CUDA и оптимизации их работы.
Алгоритм DualPipe минимизировал узкие места в обучении, особенно при межузловом экспертном параллелизме, требуемом архитектурой MoE, и эта оптимизация позволила кластеру обработать 14,8 триллиона маркеров во время предварительного обучения с практически нулевыми коммуникационными накладными расходами, сообщает DeepSeek.
Помимо реализации DualPipe, DeepSeek ограничила количество узлов, участвующих в обмене данными, максимум четырьмя. Это позволило сократить трафик и обеспечить эффективное дублирование коммуникаций и вычислений.
Важнейшим элементом снижения требований к вычислениям и связи стало использование низкоточных методов обучения. В DeepSeek использовался фреймворк смешанной точности FP8, что позволило ускорить вычисления и снизить потребление памяти без ущерба для численной стабильности.
Ключевые операции, такие как умножение матриц, выполнялись в FP8, в то время как чувствительные компоненты, такие как вкрапления и слои нормализации, сохраняли более высокую точность (BF16 или FP32) для обеспечения точности. Такой подход позволил снизить требования к памяти, сохранив при этом высокую точность, а относительная ошибка потерь при обучении постоянно составляет менее 0,25 %.
Что касается производительности, компания утверждает, что языковая модель DeepSeek-v3 MoE сравнима или превосходит GPT-4x, Claude-3.5-Sonnet и LLlama-3.1, в зависимости от бенчмарка. Естественно, мы должны увидеть подтверждение этого в сторонних бенчмарках. Компания предоставила открытый доступ к модели и весам, так что можно ожидать скорого появления тестов.
Хотя DeepSeek-V3 может уступать таким передовым моделям, как GPT-4o или o3, по количеству параметров или возможностям рассуждений, достижения DeepSeek говорят о том, что можно обучить продвинутую модель языка MoE, используя относительно ограниченные ресурсы. Конечно, это требует множества оптимизаций и низкоуровневого программирования, но результаты оказываются на удивление хорошими.
Команда DeepSeek признает, что для развертывания модели DeepSeek-V3 требуется современное оборудование, а также стратегия развертывания, разделяющая этапы предварительной подготовки и декодирования, что может быть недостижимо для небольших компаний из-за нехватки ресурсов.
«Признавая высокую производительность и экономическую эффективность, мы также признаем, что DeepSeek-V3 имеет некоторые ограничения, особенно в части развертывания», - говорится в документе компании. «Во-первых, для обеспечения эффективности выводов рекомендуемая единица развертывания для DeepSeek-V3 относительно велика, что может быть тяжелым бременем для небольших команд. Во-вторых, хотя наша стратегия развертывания DeepSeek-V3 позволила достичь скорости сквозного генерирования в два с лишним раза выше, чем у DeepSeek-V2, все еще остается потенциал.
Оригинал
Уникальность