Ведущие компании в области ИИ хвастаются количеством графических процессоров (GPU), которые они используют или планируют использовать в будущем. Вчера OpenAI объявила о планах создания инфраструктуры для поддержки двух миллионов GPU, но теперь Илон Маск раскрыл ещё более грандиозные планы: эквивалент 50 миллионов GPU H100 для использования в ИИ в течение ближайших пяти лет. Однако, несмотря на внушительное число эквивалентов H100, фактическое количество развертываемых GPU может быть не столь велико.
В отличие от энергопотребления, которое будет огромным.50 эксафлопс для обучения ИИ
«Цель xAI — 50 миллионов единиц эквивалентной вычислительной мощности H100 для ИИ (но с гораздо лучшей энергоэффективностью) в течение 5 лет», — написал Илон Маск в посте на X.
Один GPU Nvidia H100 обеспечивает около 1000 FP16/BF16 терафлопс для обучения ИИ (это самые популярные форматы для обучения ИИ на данный момент), так что 50 миллионов таких ускорителей должны обеспечить 50 эксафлопс FP16/BF16 для обучения ИИ к 2030 году. Учитывая текущие тенденции улучшения производительности, это более чем достижимо в ближайшие пять лет.Всего 650 000 GPU Feynman Ultra
Если предположить, что Nvidia (и другие компании) продолжат наращивать производительность обучения в форматах BF16/FP16 чуть медленнее, чем в поколениях Hopper и Blackwell, то 50 эксафлопс BF16/FP16 можно будет достичь с использованием 1,3 миллиона GPU в 2028 году или 650 000 в 2029 году, согласно нашим предположениям. Если у xAI будет достаточно средств для покупки оборудования Nvidia, цель в 50 эксафлопс для обучения ИИ может быть достигнута даже раньше. xAI уже входит в число лидеров по скорости развертывания новейших ускорителей ИИ для увеличения возможностей обучения.
Компания уже использует суперкластер Coloss đen Colussus 1, оснащённый 200 000 ускорителями H100 и H200 на архитектуре Hopper, а также 30 000 единиц GB200 на архитектуре Blackwell. Кроме того, xAI планирует построить кластер Colossus 2, состоящий из 550 000 узлов GB200 и GB300 (каждый узел содержит два GPU, так что в кластере будет более миллиона GPU), первые узлы которого начнут работать в ближайшие недели, по словам Маска.
Стабильный рост производительности
Nvidia (и другие компании) недавно перешли на ежегодный выпуск новых ускорителей ИИ, и график Nvidia теперь напоминает модель Intel «Tick-Tock» прошлого: новая архитектура сменяется оптимизированной версией на том же техпроцессе (например, Blackwell → Blackwell Ultra, Rubin → Rubin Ultra). Такой подход обеспечивает значительный рост производительности каждый год, что приводит к впечатляющим долгосрочным приростам.
Например, Nvidia утверждает, что Blackwell B200 обеспечивает в 20 000 раз большую производительность для инференса по сравнению с Pascal P100 2016 года, выдавая около 20 000 FP4 терафлопс против 19 FP16 терафлопс у P100. Хотя это не прямое сравнение, метрика актуальна для задач инференса. Blackwell также в 42 500 раз энергоэффективнее Pascal, если измерять в джоулях на сгенерированный токен. Nvidia и другие компании продолжают стремительно наращивать производительность.
Архитектура Blackwell Ultra (серия B300) обеспечивает на 50% выше производительность FP4 (15 эксафлопс) по сравнению с оригинальными GPU Blackwell (10 эксафлопс) для инференса ИИ, а также вдвое выше производительность для форматов BF16 и TF32 для обучения ИИ, но с меньшей производительностью для INT8, FP32 и FP64. Форматы BF16 и FP16 обычно используются для обучения ИИ (хотя FP8 также тестируется), так что логично ожидать, что Nvidia продолжит увеличивать производительность этих форматов в следующих поколениях — Rubin, Rubin Ultra, Feynman и Feynman Ultra. Для справки, Nvidia увеличила производительность FP16/BF16 в 3,2 раза с H100 (по сравнению с A100), затем в 2,4 раза с B200 (по сравнению с H100) и в 2,2 раза с B300 (по сравнению с B200).
Реальная производительность обучения зависит не только от чистой математической производительности GPU, но и от пропускной способности памяти, размера модели, параллелизма (оптимизации программного обеспечения и производительности интерконнектов) и использования FP32 для накоплений. Тем не менее, можно с уверенностью сказать, что Nvidia способна удваивать производительность обучения (в форматах FP16/BF16) с каждым новым поколением.
Если предположить, что Nvidia сможет достичь упомянутого роста производительности в следующих четырёх поколениях ускорителей ИИ на архитектурах Rubin и Feynman, то около 650 000 GPU Feynman Ultra будет достаточно для достижения примерно 50 эксафлопс BF16/FP16 в 2029 году.Огромное энергопотребление
Но хотя xAI Илона Маска и, вероятно, другие лидеры в области ИИ достигнут 50 эксафлопс BF16/FP16 для обучения ИИ в течение ближайших четырёх-пяти лет, большой вопрос в том, сколько энергии будет потреблять такой суперкластер? И сколько атомных электростанций потребуется для его питания?
Один ускоритель H100 потребляет 700 Вт, так что 50 миллионов таких процессоров будут потреблять 35 гигаватт (ГВт), что эквивалентно мощности 35 атомных электростанций, что делает питание такого огромного дата-центра нереалистичным на сегодняшний день. Даже кластер на базе Rubin Ultra потребует около 9,37 ГВт, что сравнимо с энергопотреблением Французской Гвианы. Если предположить, что архитектура Feynman удвоит производительность на ватт для BF16/FP16 по сравнению с Rubin (мы всё ещё спекулируем), кластер на 50 эксафлопс всё равно будет потреблять 4,685 ГВт, что значительно превышает 1,4–1,96 ГВт, необходимые для дата-центра Colossus 2 компании xAI с примерно миллионом ускорителей.
Оригинал
Уникальность