Графические процессоры Blackwell компании Nvidia являются одними из самых сложных полупроводниковых устройств, что значительно повышает сложность их производства, упаковки и тестирования. Как сообщает Financial Times со ссылкой на Дага Лефевера (Doug Lefever), исполнительного директора Advantest, тестирование графических процессоров Blackwell для центров обработки данных занимает в три-четыре раза больше времени, чем GPU Hopper для центров обработки данных, поскольку перед отправкой каждое устройство должно быть протестировано десятки раз на различных инструментах.
Графический процессор Nvidia Blackwell B100/B200 состоит из двух вычислительных чиплетов, содержащих 104 миллиарда транзисторов, и восьми чиплетов памяти HBM3E, соединенных между собой с помощью интерфейса, обеспечиваемого технологией упаковки CoWoS-L от TSMC. В отличие от графического процессора Hopper H100 компании Nvidia, который имеет один чиплет с 80 миллиардами транзисторов и шесть стеков памяти HBM3.
Как правило, с ростом количества транзисторов сложность тестирования растет почти в геометрической прогрессии, поскольку чипы требуют большего количества тестовых шаблонов и большего времени тестирования. Протоколы тестирования должны охватывать высокоскоростные межсоединения, стрессовые условия, тепловые режимы (которые в случае B200 являются экстремальными) и несколько режимов работы (в Blackwell добавлена поддержка FP4).
Поскольку Blackwell включает в себя два очень сложных чипсета с новыми функциями и более высокими температурами, естественно, что их тестирование занимает более чем в два раза больше времени.
Но это еще не все. Технологии 2,5D-упаковки CoWoS-L от TSMC предусматривают дополнительные этапы тестирования (а иногда и несколько этапов), чтобы убедиться в правильности работы каждого компонента в корпусе и надежности межсоединений.
В случае Blackwell приходится тестировать отдельно вычислительные чипсеты и чипсеты памяти (хотя производители DRAM тестируют стеки HBM3), а затем многократно тестировать GPU по мере добавления этих чипсетов в RDL-интерпозитор. Мы не знаем, сколько раз GPU и модули Blackwell B100 и B200 от Nvidia тестируются во время упаковки и сборки. Тем не менее, эти GPU проходят значительно больше итераций тестирования, чем GPU Hopper H100.
В целом, длительное время тестирования Blackwell отражает растущую сложность этих GPU для ИИ и высокопроизводительных вычислений, а также требование всесторонней проверки для обеспечения производительности и надежности в различных средах центров обработки данных при функционировании вместе с другими компонентами, такими как CPU, DPU и сетевые интерфейсные карты.
Оригинал
Уникальность