Компания AMD планирует запустить первые два ускорителя Instinct в 2026 году, чтобы составить конкуренцию VR300 NVL144 от Nvidia, сообщает SemiAnalysis. Они получили названия AMD Instinct MI450X IF64 и Instinct MI450X IF128, и оба предназначены для развертывания ИИ. Если они окажутся успешными, это может со временем изменить ландшафт аппаратного обеспечения ИИ. Хотя GPU AMD Instinct серии MI300 для ИИ и HPC очень мощные на бумаге, они не могут конкурировать со стоечными решениями Nvidia NVL72 GB200 по масштабируемости производительности, поскольку их максимальный размер масштабируемого мира составляет восемь процессоров.
Но в следующем году ситуация изменится, поскольку AMD планирует выпустить решения Instinct MI450X IF64 и Instinct MI450X IF128, оснащенные 64 и 128 GPU, чтобы составить конкуренцию VR200 NVL144 от Nvidia (с 72 GPU). Теоретически, MI450X IF128 от AMD может иметь преимущество перед VR200 NVL144 от Nvidia. Однако его сложность и технические проблемы могут ограничить его первоначальный успех. Instinct MI450X IF128 станет первой системой AMD, поддерживающей несколько процессоров искусственного интеллекта в двух стойках с помощью Infinity Fabric, расширенной через Ethernet.
В основе машины будут лежать 16 серверов 1U, на которых будет работать один процессор AMD EPYC „Venice“ с четырьмя GPU Instinct MI450X, оснащенными собственным пулом памяти LPDDR и твердотельным накопителем PCIe x4. Каждый из 128 GPU будет иметь более 1,8 ТБ/с однонаправленной внутренней пропускной способности для межпроцессорной связи в пределах одного масштабируемого домена, что позволяет создавать значительно более крупные вычислительные кластеры, чем те, которые AMD поддерживала до сих пор.
Для связи за пределами локальной группы GPU (т.е. машин MI450X IF128) система включает до трех сетевых карт Pensando 800GbE для каждого GPU. Это обеспечит общую пропускную способность исходящей сети в 2,4 Тбит/с на устройство (через PCIe). Также будет доступна вторичная конфигурация, позволяющая каждому GPU использовать две сетевые карты 800GbE, подключенные через интерфейс PCIe.
Однако эта версия не сможет использовать всю пропускную способность интерфейсов, поскольку каналов PCIe 5.0 недостаточно для полноценной поддержки двух высокоскоростных сетевых карт. В отличие от систем Nvidia серии GB200, в которых для соединения стоек используются активные оптические кабели со встроенными компонентами, AMD применит более простой подход с пассивной медной проводкой.
Такая стратегия может помочь снизить стоимость системы и энергопотребление, но может быть ограничена целостностью сигнала или длиной кабеля. Кроме того, из-за сложности системы производство и развертывание может столкнуться с задержками или техническими проблемами. Чтобы устранить этот риск, AMD готовит более компактную версию той же архитектуры под названием MI450X IF64. Этот вариант будет занимать одну стойку и использовать упрощенный дизайн межсоединений, что обещает обеспечить более предсказуемое развертывание.
Если AMD удастся успешно реализовать эту архитектуру, она сможет улучшить свои позиции на рынке вычислений для искусственного интеллекта, в частности, систем вывода ИИ. Сможет ли она бросить вызов Nvidia, пока неизвестно.
Оригинал
Уникальность