Процессоры Blackwell нового поколения от Nvidia сталкиваются с серьезными проблемами, связанными с перегревом при установке в мощные серверные стойки, сообщает The Information. Как сообщается, эти проблемы привели к изменениям в дизайне и задержкам, а также вызвали обеспокоенность таких клиентов, как Google, Meta и Microsoft, по поводу того, смогут ли они развернуть серверы Blackwell в срок.
По словам инсайдеров, знакомых с ситуацией и пообщавшихся с The Information, графические процессоры Blackwell от Nvidia для ИИ и высокопроизводительных вычислений перегреваются при использовании в серверах с 72 процессорами внутри. Ожидается, что такие машины потребляют до 120 кВт на стойку. Эти проблемы заставили Nvidia несколько раз пересмотреть дизайн своих серверных стоек, поскольку перегрев ограничивает производительность GPU и чреват повреждением компонентов. По сообщениям, заказчики опасаются, что эти неудачи могут нарушить сроки развертывания новых процессоров в их центрах обработки данных.
Сообщается, что Nvidia поручила своим поставщикам внести ряд изменений в конструкцию стоек для устранения проблем с перегревом. Компания тесно сотрудничала со своими поставщиками и партнерами, чтобы разработать инженерные изменения для улучшения охлаждения серверов. Хотя эти изменения являются стандартными для таких масштабных технологических релизов, они, тем не менее, усугубили задержку, еще больше отодвинув ожидаемые сроки поставок.
В ответ на задержки и проблемы с перегревом представитель Nvidia напомнил Reuters о совместной работе с облачными провайдерами и назвал изменения в конструкции частью обычного процесса разработки. Партнерство с облачными провайдерами и поставщиками направлено на то, чтобы конечный продукт соответствовал ожиданиям по производительности и надежности, поскольку Nvidia продолжает работать над решением этих технических проблем.
Ранее Nvidia была вынуждена отложить запуск Blackwell в производство из-за недостатков конструкции процессора, снижающих его производительность. Графические процессоры Blackwell B100 и B200 от Nvidia используют технологию упаковки CoWoS-L от TSMC для соединения двух чиплетов. Эта конструкция включает в себя RDL-интерпозитор с мостами локальных кремниевых межсоединений (LSI), которые поддерживают скорость передачи данных до 10 ТБ/с. Точное позиционирование этих LSI-мостов необходимо для того, чтобы технология работала так, как задумано.
Однако несоответствие характеристик теплового расширения чипсетов GPU, мостов LSI, интерпозера RDL и подложки материнской платы приводило к деформации и сбоям в работе системы. Как сообщается, для решения этой проблемы Nvidia изменила верхние металлические слои и структуру бампов кремния GPU, чтобы повысить надежность производства. Хотя Nvidia не раскрыла конкретных подробностей об этих изменениях, она отметила, что для исправления ситуации потребовались новые маски.
В результате финальная ревизия графических процессоров Blackwell поступила в массовое производство только в конце октября, а это значит, что Nvidia сможет поставлять эти процессоры с конца января.
Клиенты Nvidia, среди которых такие технологические гиганты, как Google, Meta и Microsoft, используют графические процессоры Nvidia для обучения своих самых мощных моделей больших языков. Задержки в выпуске графических процессоров Blackwell AI, естественно, влияют на планы и продукты клиентов Nvidia.
Оригинал
Уникальность