Кластер CloudMatrix AI от Huawei использует относительно простой подход в попытке превзойти Nvidia, и исследователи компании и внешняя фирма утверждают, что он сработал, по крайней мере, в одном случае. Недавний технический доклад предвещает, что кластер чипов Ascend 910C превзошел производительность чипа H800 от Nvidia при запуске R1 LLM от DeepSeek.
Huawei опубликовала технический документ в сотрудничестве с китайским стартапом SiliconFlow, занимающимся искусственным интеллектом, в котором говорится, что кластер CloudMatrix 384 от Huawei может превзойти Nvidia в выполнении моделей DeepSeek. Было обнаружено, что аппаратное и программное обеспечение кластера превосходит системы, использующие чип Nvidia H800, вариант H100, упрощенный для экспорта в Китай, а также сам H100 при запуске модели DeepSeek R1 с 671 миллиардом параметров.
CloudMatrix 384 — это решение, основанное на методе перебора, для компании, которой запрещен доступ к передовым технологиям производства чипов. CloudMatrix — это система масштаба стойки, которая объединяет 384 двухчиповых NPU HiSilicon Ascend 910C с 192 CPU в 16 серверных стойках, используя оптические соединения для всех внутрисерверных и межсерверных коммуникаций, чтобы обеспечить молниеносную скорость межсоединений.
В исследовательской работе утверждается, что целью Huawei с CM384 было «перестроить основу инфраструктуры ИИ», а другой ученый Huawei поделился, что сама работа была опубликована «для укрепления уверенности в отечественной технологической экосистеме в использовании разработанных в Китае NPU, превосходящих по производительности GPU Nvidia». На бумаге кластер CloudMatrix 384 может выдать больше сырой мощности, чем система GB200 NVL72 от Nvidia, обеспечивая 300 PFLOPs вычислений BF16 по сравнению с 180 BF15 PFLOPS у NVL72.
Кластер Huawei также имеет программное обеспечение, которое может конкурировать с Nvidia в области LLM; решение CloudMatrix-Infer LLM, как утверждается, способно предварительно заполнять подсказки 4,45 токенами, генерируемыми в секунду на TFLOPs, и производить ответы со скоростью 1,29 токена в секунду на TFLOPS, что, согласно статье, превосходит эффективность фреймворка SGLang от Nvidia. Конечно, CloudMatrix 384 не превосходит решения Nvidia по всем параметрам, и его основным недостатком является энергопотребление и эффективность.
CloudMatrix потребляет в четыре раза больше энергии, чем GB200 NVL72 от Nvidia, потребляя в общей сложности 559 кВт по сравнению с 145 кВт у NVL72. Упаковка большего количества чипов в одно устройство превосходит Nvidia по вычислительной мощности, но за счет эффективности, которая примерно в 2,3 раза ниже. Однако китайские клиенты, заинтересованные в CloudMatrix, лишены доступа к кластерам искусственного интеллекта на базе Nvidia, поэтому эти сравнения для них имеют меньшее значение.
Не говоря уже о том, что в материковом Китае энергия доступна в изобилии, а цены на электроэнергию в регионе за последние три года упали почти на 40%. Как сообщил глава Nvidia Дженсен Хуанг на французской выставке VivaTech в начале этого месяца, Nvidia значительно опережает Huawei по производительности чипов. «Наша технология на поколение впереди их», — утверждает Хуанг, и Huawei быстро соглашается с этим внутри компании. Но, как поспешил добавить Хуанг, «ИИ — это параллельная проблема, поэтому, если каждый из компьютеров не способен… просто добавьте больше компьютеров».
CloudMatrix, несмотря на свои 16 стоек и высокое энергопотребление, по-прежнему остается привлекательным выбором для китайских клиентов, которые ищут максимальную производительность LLM, благодаря своим сверхбыстрым межсоединениям и надежному программному стеку. Для тех, кто хочет глубже погрузиться в CloudMatrix 384, наша статья, посвященная его выпуску, гораздо подробнее рассказывает о том, что помогает «суперузлу ИИ» опередить предложения Nvidia.
Оригинал
Уникальность