Эффективность работы - ключ к быстрому росту производительности процессоров для ИИ и HPC, поэтому AMD и другие компании ведут ожесточенную борьбу за нее с каждым новым поколением продуктов. Еще в 2021 году компания поставила цель к 2025 году увеличить энергоэффективность своих процессоров EPYC и ускорителей Instinct в 30 раз по сравнению с 2020 годом. Похоже, что с последними процессорами EPYC 9005 серии «Turin» и графическими процессорами Instinct MI300X она в принципе достигла своей цели, но на год раньше.
Чтобы доказать свою точку зрения, AMD использовала машину, оснащенную двумя 64-ядерными процессорами EPYC 9575F, восемью ускорителями Instinct MI300X и 2 304 ГБ памяти DDR5, и протестировала ее производительность в модели Llama3.1-70B (vLLM 0.6.1.post2, TP8 Parallel, FP8, continuous batching). Используя сложный набор вычислений, AMD определила энергоэффективность этой системы и сравнила ее с машиной 2020 года, характеристики которой не раскрываются, обнаружив, что новая машина в 28,3 раза более энергоэффективна, чем старая.
AMD не раскрыла спецификации системы 2020 года, но мы можем предположить, что она основана на процессорах компании серии EPYC 7002, которые имеют микроархитектуру Zen 2 с 64 ядрами на процессор, и ускорителях Instinct MI100, которые основаны на архитектуре CDNA 1.
Instinct MI100 от AMD не поддерживает FP8 (в отличие от MI300X, который поддерживает его с той же скоростью, что и INT8), хотя если сравнить производительность INT8 у MI100 (184,6 TOPS) и MI300X (2615 TOPS/5230 TOPS с разреженностью), то на бумаге разница составит 14 - 28 раз. Примерно такая же разница наблюдается и в FP16, так что сравнение вполне корректно. Если учесть значительно лучшие подсистемы памяти (32 ГБ HBM2 при 1,20 ГБ/с против 192 ГБ HBM3 при 5,30 ГБ/с) и значительно лучшие процессоры, то неудивительно, что существующие машины AMD значительно быстрее и производительнее, чем системы 2020 года.
Сама AMD утверждает, что помимо «грубых» аппаратных улучшений, более высокая эффективность была достигнута благодаря сочетанию архитектурных достижений и программных оптимизаций, чего и следовало ожидать.
Совсем недавно компания представила ускорители Instinct MI325X, основанные на архитектуре CDNA 3 и оснащенные подсистемой памяти HBM3E объемом 288 ГБ. В следующем году компания собирается выпустить процессоры Instinct MI355X, которые будут основаны на архитектуре CDNA 4 и увеличат производительность вычислений FP8 и FP16 примерно на 80 % по сравнению с MI325X. В дополнение к FP8 и FP16, MI325X добавит поддержку форматов FP4 и FP6 для ИИ, что увеличит его пиковую производительность до 9,2 PetaFLOPS (FP4), что будет полезно для многих больших языковых моделей. При этом AMD более чем уверена, что к 2025 году энергоэффективность ее вычислительных платформ вырастет в 30 раз по сравнению с 2020 годом.
«Благодаря продуманному подходу к совместной разработке аппаратного и программного обеспечения мы уверены в том, что наша дорожная карта позволит превзойти цель 30x25, и с нетерпением ждем новых возможностей, которые позволят нам добиться значительного повышения энергоэффективности уже в ближайшие пару лет», - написал Сэм Наффзигер, старший вице-президент, корпоративный стипендиат AMD и технологический архитектор продукции AMD.
Оригинал
Уникальность