Компания TensorWave, занимающаяся инфраструктурой искусственного интеллекта, объявила о развертывании огромного кластера из 8192 графических процессоров, оснащенного новейшими ускорителями AMD Instinct MI325X. По заявлению компании, это крупнейшая на сегодняшний день установка для обучения искусственного интеллекта на базе AMD в Северной Америке.
Система также оснащена системой прямого жидкостного охлаждения, что делает ее первым публичным развертыванием такого рода в таких масштабах. В своем объявлении, опубликованном X, компания продемонстрировала фотографии высокоплотных стоек кластера с ярко-оранжевыми охлаждающими контурами, подтвердив, что система теперь полностью готова к эксплуатации. AMD Instinct MI325X, официально выпущенный в конце прошлого года, был самой агрессивной попыткой компании бросить вызов NVIDIA в области ускорителей искусственного интеллекта — до тех пор, пока его не сменили MI350X и MI355X в прошлом месяце.
Несмотря на это, каждый блок MI325X оснащен 256 ГБ памяти HBM3e, обеспечивающей пропускную способность 6 ТБ/с, а также вычислительной мощностью 2,6 ПФЛОПС FP8 благодаря чиплетной конструкции с 19 456 потоковыми процессорами с тактовой частотой до 2,10 ГГц.
Этот графический процессор уверенно держится на рынке наряду с H200 от Nvidia, при этом будучи намного дешевле, но за это приходится платить в виде ограничения кластера до 8 графических процессоров по сравнению с 72 у Green Team. Это одна из основных причин, по которой он не стал популярным, и именно это делает подход TensorWave таким интересным.
Вместо того, чтобы пытаться конкурировать по масштабу на узел, TensorWave сосредоточилась на тепловом запасе и плотности на стойку. Весь кластер построен вокруг проприетарного контура жидкостного охлаждения с прямым подключением к чипу, в котором ярко-оранжевые (иногда желтые?) трубки циркулируют охлаждающую жидкость через холодные пластины, установленные непосредственно на каждом MI325X.
При мощности 1000 Вт на GPU даже запуск небольшой части этого оборудования требует серьезных инженерных решений. К счастью, 16-контактных разъемов питания не видно. В любом случае, в общей сложности 8192 графических процессора будут производить более 2 петабайт/с совокупной пропускной способности памяти и примерно 21 эксафлопс пропускной способности FP8, хотя, как всегда, устойчивая производительность в значительной степени зависит от параллелизма модели (разделения модели ИИ между графическими процессорами) и конструкции межсоединений.
Бизнес-модель TensorWave заключается в аренде облачных мощностей, поэтому реальная задача масштабирования моделей ложится на самих арендаторов. Эта установка следует за раундом финансирования серии A TensorWave на сумму 100 миллионов долларов, который прошел в мае под руководством AMD Ventures и Magnetar.
В отличие от большинства поставщиков облачных услуг, которые в основном используют оборудование NVIDIA, TensorWave делает ставку на AMD не только из-за гибкости цен, но и потому, что считает, что ROCm достаточно созрела для полномасштабного обучения моделей. Конечно, NVIDIA по-прежнему доминирует на рынке. Ее ускорители B100 и H200 повсеместно используются, от AWS до CoreWeave, и весь бум искусственного интеллекта, похоже, поддерживается ими, но это развитие показывает положительные признаки для укрепления позиций AMD в секторе искусственного интеллекта.
Таким образом, внедрение TensorWave не является единичным случаем. По словам команды, это первая фаза гораздо более масштабного развертывания, в рамках которого планируется интегрировать MI350X от AMD в конце этого года. Этот чип, основанный на CDNA 4, поддерживает точность FP4 и FP6, имеет более высокие пределы пропускной способности и более энергоемкие конструкции, которые могут повысить TDP до 1400 Вт на чип — что невозможно урегулировать с помощью одного только воздуха, поэтому TensorWave, похоже, уже находится на правильном пути. Стек ROCm еще требует доработки, но с 8192 графическими процессорами MI325X, уже работающими под жидкостным охлаждением, AMD наконец-то имеет масштаб, чтобы доказать, что она достойна участия в этой дискуссии.
Оригинал
УНикальность