Согласно отчету TrendForce, компании Nvidia, возможно, придется отложить наращивание объемов производства ИИ-серверов нового поколения на базе платформ B200 и GB200 из-за перегрева, энергопотребления и необходимости оптимизации межсоединений. Компания, занимающаяся исследованием рынка, считает, что массовое производство и пиковые поставки машин Blackwell начнутся в середине 2025 года, что означает почти полугодовую задержку. Nvidia пока не подтвердила и не опровергла эти заявления.
Как и ожидалось, Nvidia и ее партнеры смогут поставить лишь ограниченное количество серверов на базе Blackwell в 2024 году, поскольку компании придется использовать для них свои малопроизводительные B200. Однако Dell уже поставляет серверные стойки Blackwell. Однако, несмотря на то, что доработанные версии процессоров Nvidia B200 поступили в массовое производство в октябре и, следовательно, попадут в руки компании в январе, TrendForce не ожидает, что темпы роста серверов на базе Blackwell сразу же подскочат. По мнению компании, из-за перегрева, энергопотребления и требований к высокоскоростным межсоединениям массовое производство и пиковые поставки B200 и GB200 начнутся только со второго по третий квартал 2025 года.
Всего несколько месяцев назад сообщалось, что стойка Nvidia NVL72 на базе платформы GB200 с 72 графическими процессорами B200 будет потреблять 120 кВт энергии, что уже значительно выше, чем у современных серверных стоек AI (типичная мощность стоек высокой плотности составляет до 20 кВт, а стойка на базе H100, как сообщается, потребляет около 40 кВт). Теперь TrendForce утверждает, что Nvidia обновила спецификацию устройства, и теперь оно потребляет 140 кВт, что больше, чем могут предоставить типичные центры обработки данных для одной стойки.
Проблема заключается в том, что графические процессоры Blackwell от Nvidia, как сообщается, были склонны к перегреву в серверах, оснащенных 72 процессорами, даже когда стойки потребляли до 120 кВт на стойку. Эта проблема заставила Nvidia неоднократно пересматривать дизайн своих серверных стоек, поскольку перегрев не только снижает производительность GPU, но и чреват повреждением оборудования. Потребляемая мощность в 140 кВт на стойку означает дальнейшие изменения в конструкции серверов, что может привести к сбоям.
Повышенное энергопотребление означает дополнительные требования к охлаждению. Жидкостное охлаждение необходимо для серверов Blackwell, но современные блоки распределения охлаждающей жидкости (CDU) могут выдерживать только 60-80 кВт тепловой мощности. В связи с этим поставщики систем охлаждения оптимизируют конструкции холодильных пластин и стремятся удвоить или утроить мощность CDU. TrendForce ожидает, что производительность CDU, работающих по принципу «жидкость-жидкость в ряду», превысит 1,3 мВт, а в дальнейшем возможен дальнейший прогресс, так что чрезмерный отвод тепла со временем перестанет быть серьезной проблемой.
Однако, согласно отчету, энергопотребление и управление тепловыделением - не единственные проблемы, которые предстоит решить Nvidia и ее партнерам. TrendForce утверждает, что Nvidia должна оптимизировать свои межсоединения, но не уточняет, какие именно межсоединения должны быть оптимизированы.
Пока неясно, как заявленные проблемы с серверами Nvidia B200 и GB200 повлияют на сроки запуска и доступность B200A на базе упрощенных процессоров Blackwell и машин B300 и GB300 с обновленными графическими процессорами Blackwell. Хотя B200A, вероятно, будет иметь значительно меньшее энергопотребление по сравнению с B200/GB200, обновленные графические процессоры Blackwell серии B300 обещают поставляться с большим объемом памяти и иметь более высокую вычислительную производительность, которая обычно сопровождается более высокой мощностью, поэтому эти продукты, вероятно, будут потреблять даже больше 140 кВт на стойку, что потребует еще более сложных компонентов и охлаждения.
Оригинал
Уникальность