• Добро пожаловать на инвестиционный форум!

    Во всем многообразии инвестиций трудно разобраться. MMGP станет вашим надежным помощником и путеводителем в мире инвестиций. Только самые последние тренды, передовые технологии и новые возможности. 400 тысяч пользователей уже выбрали нас. Самые актуальные новости, проверенные стратегии и способы заработка. Сюда люди приходят поделиться своим опытом, найти и обсудить новые перспективы. 16 миллионов сообщений, оставленных нашими пользователями, содержат их бесценный опыт и знания. Присоединяйтесь и вы!

    Впрочем, для начала надо зарегистрироваться!
  • 🐑 Моисей водил бесплатно. А мы платим, хотя тоже планируем работать 40 лет! Принимай участие в партнеской программе MMGP
  • 📝 Знаешь буквы и умеешь их компоновать? Платим. Дорого. Бессрочная акция от MMGP: "ОПЛАТА ЗА СООБЩЕНИЯ"
  • 💰 В данном разделе действует акция с оплатой за новые публикации
  • 📌 Внимание! Перед публикацией новостей ознакомьтесь с правилами новостных разделов

Тест ИИ InferenceMax проверяет стеки программного обеспечения, эффективность и совокупную стоимость владения

Тесты ИИ.jpg

Новостное освещение искусственного интеллекта почти всегда сосредоточено на сделках, связанных с сотнями миллиардов долларов, или на последних достижениях в области аппаратного обеспечения, таких как графические процессоры или дата-центры. Однако усилия по тестированию производительности в основном сосредоточены на аппаратной части, и именно эту проблему SemiAnalysis стремится решить с помощью своего набора для тестирования InferenceMax AI с открытым исходным кодом.

Этот набор измеряет эффективность множества компонентов программных стеков ИИ в реальных сценариях вывода (когда модели ИИ работают, а не обучаются) и публикует результаты на живой панели InferenceMax.InferenceMax выпущен под лицензией Apache 2.0 и измеряет производительность сотен комбинаций аппаратного и программного обеспечения для ускорения ИИ в формате непрерывного выпуска, обновляя результаты каждую ночь с использованием последних версий программного обеспечения.

Как отмечает проект, существующие тесты проводятся в фиксированные моменты времени и не всегда показывают возможности текущих версий, а также не отражают эволюцию (или даже регресс) программных улучшений в полном стеке ИИ, включая драйверы, ядра, фреймворки, модели и другие компоненты.Тест разработан максимально нейтральным и имитирует реальные приложения. Вместо того чтобы сосредотачиваться только на абсолютной производительности, метрики InferenceMax стремятся к ключевому показателю, важному для проектов: TCO (общая стоимость владения), измеряемая в долларах за миллион токенов. Упрощенно, "токен" — это мера данных, сгенерированных ИИ.

Основной показатель производительности — токены в секунду на GPU или на пользователя, который варьируется в зависимости от количества одновременно обрабатываемых запросов.Согласно поговорке "быстро, много или дешево — выбери два", высокая пропускная способность (измеряемая в ток/с/GPU), означающая оптимальное использование GPU, лучше всего достигается при обслуживании множества клиентов одновременно, так как вывод в больших языковых моделях зависит от матричного умножения, которое выигрывает от пакетной обработки запросов.

Однако обслуживание множества запросов одновременно снижает время, которое GPU может уделить одному запросу, поэтому для более быстрого вывода (например, в чат-боте) нужно увеличивать интерактивность (измеряемую в ток/с/пользователь) и снижать пропускную способность. Например, если вы видели, как ChatGPT отвечает с перебоями, это результат слишком высокой пропускной способности по сравнению с интерактивностью.Как и в любом сценарии типа "Златовласка", существует идеальное равновесие между этими двумя показателями для универсальной настройки.

Идеальные конфигурации попадают в кривую Парето, определенную область на графике, где отображаются пропускная способность и интерактивность. Поскольку GPU приобретаются с учетом стоимости в долларах за час, учитывая их цену и энергопотребление (или при аренде), лучший GPU для конкретного сценария не обязательно самый быстрый, а тот, который наиболее эффективен.InferenceMax отмечает, что случаи с высокой интерактивностью дороже, чем случаи с высокой пропускной способностью, хотя потенциально более прибыльны, поскольку обслуживают больше пользователей одновременно. Истинной метрикой для поставщиков услуг является TCO, измеряемая в долларах за миллион токенов.

InferenceMax пытается оценить этот показатель для различных сценариев, включая покупку и владение GPU или их аренду.Важно отметить, что простое изучение графиков производительности для конкретного GPU и связанного с ним программного стека не даст полной картины оптимального выбора, если не учитывать все метрики и предполагаемый сценарий использования. Кроме того, InferenceMax должен показать, как изменения в программном стеке, а не в чипах, влияют на все указанные метрики и, следовательно, на TCO.

В качестве практических примеров InferenceMax отмечает, что AMD MI335X действительно конкурентоспособен с Nvidia B200 по TCO, хотя последний значительно быстрее. С другой стороны, ядра AMD FP4 (4-битный формат с плавающей точкой) имеют потенциал для улучшения, поскольку сценарии и модели, зависящие от этой математики, в основном являются прерогативой чипов Nvidia.

Для выпуска 1.0 InferenceMax поддерживает комбинацию ускорителей Nvidia GB200, NVL72, B200, H200 и H100, а также AMD Instinct MI355X, MI325X и MI300X. Проект отмечает, что в ближайшие месяцы планируется добавить поддержку Tensor-единиц Google и AWS Trainium. Тесты проводятся каждую ночь через GitHub Action Runners. AMD и Nvidia были привлечены к предоставлению реальных конфигураций для GPU и программного стека, поскольку их можно настраивать тысячами различных способов.Говоря о сотрудничестве с поставщиками, InferenceMax благодарит множество людей из крупных компаний и облачных провайдеров, которые работали с проектом, некоторые даже исправляли ошибки за ночь.

Проект также выявил несколько ошибок в конфигурациях Nvidia и AMD, подчеркивая стремительный темп разработки и развертывания систем ускорения ИИ.

Сотрудничество привело к патчам для ROCm от AMD (эквивалент CUDA от Nvidia), при этом InferenceMax отмечает, что AMD следует сосредоточиться на предоставлении пользователям лучших конфигураций по умолчанию, поскольку слишком много параметров требуют настройки для достижения оптимальной производительности. Со стороны Nvidia проект столкнулся с некоторыми трудностями с новыми драйверами Blackwell, обнаружив проблемы с инициализацией/завершением, которые проявлялись в сценариях тестирования с быстрым запуском и остановкой экземпляров.

Оригинал

Уникальность
 

Похожие темы

Сверху Снизу