Сообщения о перегреве серверных стоек GB200 NVL72 от Nvidia якобы были преувеличены. Business Insider сообщает, что недостатки конструкции охлаждения Blackwell уже устранены. Дилан Патель, главный аналитик Semianalysis, якобы сообщил Business Insider, что проблемы с дизайном Blackwell, которые наблюдались в течение нескольких месяцев, были в основном устранены, и заявил, что проблемы с перегревом в значительной степени преувеличены.
Пять аналитиков Semianalysis, занимающихся мониторингом полупроводниковой промышленности, сообщили, что проблемы с системой охлаждения, вызвавшие «переделки» со стороны нескольких поставщиков, были «незначительным» изменением.
Проблемы с охлаждением у Blackwell возникли именно с массивной серверной стойкой Nvidia на 72 чипа, которая может потреблять до 120 кВт. Недостатки конструкции стойки заставили Nvidia неоднократно пересматривать ее дизайн из-за перегрева графических процессоров внутри. Из-за этого поставки оборудования Nvidia GB200 задерживаются, что приводит к дополнительным задержкам, связанным с необходимостью внесения изменений в конструкцию.
Графические процессоры Nvidia B200 - это самые мощные чипы для ИИ-нагрузок. Суперчип GB200, например, имеет настраиваемое TDP в тысячи ватт, а пиковая мощность достигает 2700 ватт. Такие абсурдно высокие показатели мощности делают воздушное охлаждение практически невозможным в условиях стандартного форм-фактора стойки.
Эта физическая проблема заставила Nvidia установить жидкостное охлаждение на свои последние графические процессоры Blackwell. Это также требует от центров обработки данных перестраивать свои серверные фермы, чтобы приспособить инфраструктуру, необходимую для поддержки серверов с жидкостным охлаждением.
Nvidia могла бы решить эту проблему, создав более медленные GPU с воздушным охлаждением, что производитель GPU и делает, выпуская такие GPU, как H200 NVL. Однако, чтобы оставаться на острие гонки вооружений ИИ-графиков, Nvidia отдает приоритет производительности, независимо от затрат, поэтому компания решила создавать GPU, требующие тысячи ватт мощности за счет воздушного охлаждения.
Хорошая новость заключается в том, что проблемы с охлаждением 72 чипов Blackwell у Nvidia, по всей видимости, незначительны и уже в значительной степени решены. Кроме того, проблема наблюдается только у флагманской серверной стойки Nvidia с 72 чипами.
Оригинал
Уникальность