AMD представила предварительную версию своего первого собственного решения для стоек под названием Helios на мероприятии Advancing AI, которое состоялось в четверг. Система будет основана на процессорах EPYC «Venice» нового поколения, будет использовать ускоритель Instinct MI400 и будет полагаться на сетевые соединения с использованием сетевых карт Pensando, которые скоро появятся на рынке. В целом, по заявлению компании, флагманская модель MI400X в 10 раз мощнее MI300X, что является значительным прогрессом, учитывая, что MI400X будет выпущена примерно через три года после MI300X.
В области решений для искусственного интеллекта, предназначенных для установки в стойку, AMD явно отстает от Nvidia. В этом году ситуация немного изменится, поскольку поставщики облачных услуг (такие как Oracle OCI), OEM-производители и ODM-производители будут создавать и внедрять решения для стоек на базе графических процессоров серии Instinct MI350X, но эти системы не будут разработаны AMD, и они должны будут соединять каждую 8-процессорную систему с помощью Ethernet, а не межсоединений с низкой задержкой и высокой пропускной способностью, таких как NVLink.
Настоящие изменения произойдут в следующем году с появлением первой разработанной AMD системы rack-scale под названием Helios, в которой будут использоваться процессоры EPYC «Venice» на базе Zen 6 , графические процессоры серии Instinct MI400 на базе CDNA «Next» и сетевые интерфейсные карты (NIC) Pensando «Vulcano», которые, по слухам, увеличат максимальный размер масштабируемой системы до более чем восьми графических процессоров, что значительно расширит их возможности для обучения и вывода. Система будет соответствовать стандартам OCP и поддерживать межсоединения нового поколения, такие как Ultra Ethernet и Ultra Accelerator Link, обеспечивая поддержку требовательных рабочих нагрузок ИИ.
«Позвольте мне представить вам рэковую систему Helios AI», — сказал Эндрю Дикман, корпоративный вице-президент и генеральный директор подразделения AMD по производству графических процессоров для центров обработки данных. «Helios — одно из системных решений, над которым мы работаем на основе графического процессора Instinct MI400-series, поэтому это полностью интегрированная стойка для искусственного интеллекта с процессорами EPYC, графическими процессорами Instinct MI400-series, сетевыми картами Pensando и нашим стеком ROCm.
Это унифицированная архитектура, разработанная как для обучения передовых моделей, так и для масштабного инференса, которая обеспечивает лидирующую вычислительную плотность, пропускную способность памяти, масштабируемое межсоединение, все это построено в открытом стандарте, совместимом с OCP, поддерживающем Ultra Ethernet и UALink».
С точки зрения производительности, флагманский AI GPU AMD серии Instinct MI400 (мы будем называть его Instinct MI400X, хотя это не официальное название, а CDNA Next — CDNA 5) удваивает производительность Instinct MI355X и увеличивает емкость памяти на 50%, а пропускную способность — более чем на 100%. В то время как MI355X обеспечивает 10 плотных FP4 PFLOPS, MI400X, по прогнозам, достигнет 20 плотных FP4 PFLOPS.
В целом, компания заявляет, что флагманский MI400X в 10 раз мощнее MI300X, что является замечательным прогрессом, учитывая, что MI400X будет выпущен примерно через три года после MI300X.
«Если посмотреть на нашу дорожную карту продуктов и то, как мы продолжаем ускоряться, с MI355X мы сделали большой скачок вперед [по сравнению с MI300X]: мы обеспечиваем в 3 раза большую производительность на широком наборе моделей и рабочих нагрузок, и это значительный рост по сравнению с предыдущей траекторией, по которой мы двигались от MI300X к MI325X», — сказал Дикман. «Теперь, с Instinct MI400X и Helios, мы еще больше изгибаем эту кривую, а Helios разработан для обеспечения до 10-кратного увеличения производительности ИИ на самых передовых моделях высокого класса».
Новый ускоритель MI400X также превзойдет Blackwell Ultra от Nvidia, который в настоящее время набирает обороты. Однако, если сравнивать с Rubin R200 следующего поколения от Nvidia, который обеспечивает 50 плотных FP4 PFLOPS, MI400X от AMD будет примерно в 2,5 раза медленнее. Тем не менее, у AMD будет козырь в рукаве — пропускная способность и емкость памяти (подробности см. в таблицах). Аналогичным образом, Helios превзойдет NVL72 на базе Blackwell Ultra и NVL144 на базе Rubin от Nvidia.
Однако пока неизвестно, как Helios будет сравниваться с NVL144 в реальных приложениях. Кроме того, в 2027 году будет чрезвычайно сложно превзойти NVL576 от Nvidia как по вычислительной производительности, так и по пропускной способности памяти, хотя к тому времени AMD, вероятно, выпустит что-то новое.
По крайней мере, именно об этом AMD сообщила на мероприятии Advancing AI на этой неделе: компания планирует продолжать развивать свои интегрированные платформы искусственного интеллекта с помощью графических процессоров, центральных процессоров и сетевых технологий следующего поколения, продлив свой план развития до 2027 года и далее.
Оригинал
Уникальность