AMD обсудила ограничивающие факторы развития ускорителей ИИ на ISC 2025 — в частности, растущие требования к энергопотреблению этих передовых чипов. ComputerBase сообщает, что AMD ожидает, что суперкомпьютеры будущего с производительностью в зетафлопс будут потреблять энергию, равную мощности атомной электростанции.
AMD поделилась графиком прогнозируемого роста энергопотребления суперкомпьютеров до 2035 года. График начинается с периода между 2010 и 2015 годами, когда для работы суперкомпьютеров требовалось всего 3,2 ГФ/ватт. Затем график продолжается (по прямой линии) до 2035 года, когда, по прогнозам AMD, суперкомпьютеры зетта-масштаба будут потреблять 2140 ГФ/ватт, или полгигаватта энергии. График предполагает двукратное повышение эффективности разработки процессоров ИИ каждые 2,2 года.
Предполагается, что пропускная способность памяти и охлаждающая способность являются основными факторами, ответственными за увеличение энергопотребления до таких высоких прогнозируемых уровней. По мере увеличения вычислительной мощности оборудования ИИ пропускная способность памяти и системы охлаждения центров обработки данных должны увеличиваться, чтобы не отставать. Это создает эффект снежного кома, приводящий к постоянному увеличению энергопотребления во всех областях центра обработки данных.
Еще больше усугубляет эту проблему спрос на вычислительные возможности FP128, FP64, FP16 и FP8. Несмотря на то, что FP64 и FP128 обеспечивают более высокую точность, некоторые рабочие нагрузки более эффективны при выполнении в FP16 и FP8. Таким образом, будущие ускорители ИИ должны будут быть способны выполнять операции с более низкой точностью. Мы уже наблюдаем резкий рост энергопотребления с появлением новейших ускорителей ИИ. TDP Nvidia B200 составляет 1000 Вт, а у нового MI355X от AMD — 1400 Вт.
Для сравнения, флагманский ИИ-графический процессор Nvidia A100 5-летней давности потреблял всего 400 Вт — меньше, чем RTX 5090. Правительство США надеется исправить эту растущую энергетическую ситуацию, прежде чем она станет проблемой для атомных электростанций. Несколько крупных компаний, таких как Microsoft, также вкладывают значительные средства в ядерный синтез, чтобы решить проблемы с энергоснабжением своих центров обработки данных.
Суперкомпьютеры по-прежнему находятся в диапазоне ExaFLOP, причем суперкомпьютер ElCaptain на базе AMD-MI300A в настоящее время является самым быстрым суперкомпьютером в мире. Однако полноценные фермы центров обработки данных с искусственным интеллектом теперь достигают производительности в зеттафлопах (зеттамасштабе) — Oracle стала первой компанией, предоставившей кластер облачных вычислений в зеттамасштабе, который может похвастаться армией из 131 072 графических процессоров Blackwell (что соответствует производительности 2,4 зеттафлопа).
Оригинал
Уникальность