Nvidia объявила о своей новой вычислительной архитектуре Rubin AI, которая наконец-то сможет соперничать со стратегией Китая по запуску AI-инференса при значительно более низких затратах по сравнению с текущей архитектурой Blackwell.
Как и предполагали слухи о Rubin AI, платформа построена вокруг шести подсистем, работающих совместно: процессора Vera CPU, нового графического процессора Nvidia Rubin GPU, коммутатора NVLink 6 третьего поколения, сетевого адаптера ConnectX-9 SuperNIC, процессора BlueField-4 DPU и коммутатора Spectrum-6 Ethernet. Чипы производятся на передовых техпроцессах фабрики TSMC и включают оптимизации интерфейсов, направленные на резкое снижение стоимости токенов и времени обучения.
Совместная разработка («codesign») этих шести чипов позволяет обучать модели, используя лишь четверть количества GPU, необходимых в текущей платформе Nvidia Blackwell, и снижает стоимость токена в десять раз. Такое же десятикратное снижение стоимости токена обещает Илон Маск для следующего поколения компьютера Tesla AI5, однако его массовое производство начнётся только в следующем году. Маск назвал Nvidia Rubin «ракетным двигателем для AI», который позволит масштабно внедрять модели на периферийных устройствах.
Китай также гордится низкой стоимостью токенов, достигаемой благодаря открытой публикации моделей вроде DeepSeek и объединению множества среднеуровневых GPU, таких как Huawei 910C. Таким образом, архитектура Nvidia Rubin решает задачу не только повышения производительности, но и снижения затрат на запуск AI-моделей.
Наиболее интересной частью платформы Rubin является новый процессор Nvidia Vera CPU, «спроектированный для перемещения данных и агентного рассуждения в ускоренных системах с полной поддержкой конфиденциальных вычислений». Его можно использовать в паре с графическим процессором Nvidia или как самостоятельный процессор для выполнения «аналитики, облачных задач, оркестрации, хранения и высокопроизводительных вычислений (HPC)» с полной совместимостью с архитектурой Arm.
Характеристики Vera CPU включают 88 кастомных ядер и пропускную способность памяти LPDDR5X на уровне 1,2 ТБ/с при очень низком энергопотреблении. Интерфейс NVLink-C2C обеспечивает синхронизированный доступ к памяти CPU и GPU, являясь частью оптимизаций, которые делают платформу Rubin на порядок эффективнее её предшественника на базе Blackwell.
Оригинал
Уникальность