Когда мы пишем о суперкомпьютерах для ИИ с десятками или даже сотнями тысяч процессоров, мы обычно имеем в виду системы на базе графических процессоров Hopper или Blackwell от Nvidia. Но Nvidia не одинока в решении проблемы сверхтребовательных суперкомпьютеров для ИИ: на этой неделе Amazon Web Services заявила, что создает машину с сотнями тысяч своих процессоров Trainium2, чтобы достичь производительности примерно 65 ExaFLOPS для ИИ. Компания также представила процессор Trainium3, производительность которого увеличится в четыре раза по сравнению с Trainium2.
AWS Trainium2 - это ИИ-ускоритель Amazon второго поколения, предназначенный для фундаментальных моделей (FM) и больших языковых моделей (LLM) и разработанный Amazon's Annapurna Labs. Устройство представляет собой многоплиточную систему в пакете с двумя вычислительными плитками, 96 ГБ HBM3 в четырех стеках и двумя статическими чиплетами для однородности пакета.
Когда AWS представила Trainium2 в прошлом году, она не поделилась конкретными цифрами производительности Trainium2, но заявила, что экземпляры Trn2 могут масштабироваться до 100 000 процессоров, обеспечивая 65 ExaFLOPS производительности вычислений с низкой точностью для ИИ, что означает, что один чип может обеспечить до 650 TFLOPS. Но, похоже, это была консервативная оценка.
Во-первых, уже доступны экземпляры EC2 Trn2 на базе AWS Trainium2 в Amazon Elastic Compute Cloud (Amazon EC2). В этих экземплярах установлено 16 процессоров Trainium2, соединенных между собой интерфейсом NeuronLink, которые обеспечивают производительность до 20,8 FP8 PetaFLOPS и 1,5 ТБ памяти HBM3 с пиковой пропускной способностью 46 ТБ/с.
По сути, это означает, что каждый Trainium2 предлагает до 1,3 Петафлопс производительности FP8 для ИИ, что в два раза выше по сравнению с прошлогодним показателем. Возможно, AWS нашла способ оптимизировать производительность процессора, а может быть, ранее приводила цифры FP16, но 1,3 петафлопса производительности FP8 сопоставимы с производительностью Nvidia H100 в 1,98 петафлопса (без учета разреженности).
Во-вторых, AWS создает ультрасерверы EC2 Trn2 с 64 взаимосвязанными чипами Trainium2, которые обеспечивают производительность 83,2 петафлопс в FP8, а также 6 ТБ памяти HBM3 с пиковой пропускной способностью 185 ТБ/с. Для соединения машин между собой используется сеть Elastic Fabric Adapter (EFA) со скоростью 12,8 Тбит/с.
Наконец, AWS и Anthropic создают гигантский EC2 UltraCluster из ультрасерверов Trn2 под кодовым названием Project Rainier. Система будет оснащена сотнями тысяч процессоров Trainium2, производительность которых в пять раз выше, чем у ExaFLOPS, используемых Anthropic для обучения своих ведущих моделей ИИ, таких как Sonnet и Opus. Ожидается, что машина будет соединена сетью EFA третьего поколения с низкой задержкой и петабитным масштабом.
AWS не раскрывает, сколько процессоров Trainium2 будет использовать EC2 UltraCluster, но если предположить, что максимальная масштабируемость экземпляров Trn2 составляет 100 000 процессоров, то это позволяет говорить о системе с производительностью около 130 FP8 ExaFLOPS, что довольно много и соответствует примерно 32 768 процессорам Nvidia H100.
Оригинал
Уникальность