• Добро пожаловать на инвестиционный форум!

    Во всем многообразии инвестиций трудно разобраться. MMGP станет вашим надежным помощником и путеводителем в мире инвестиций. Только самые последние тренды, передовые технологии и новые возможности. 400 тысяч пользователей уже выбрали нас. Самые актуальные новости, проверенные стратегии и способы заработка. Сюда люди приходят поделиться своим опытом, найти и обсудить новые перспективы. 16 миллионов сообщений, оставленных нашими пользователями, содержат их бесценный опыт и знания. Присоединяйтесь и вы!

    Впрочем, для начала надо зарегистрироваться!
  • 🐑 Моисей водил бесплатно. А мы платим, хотя тоже планируем работать 40 лет! Принимай участие в партнеской программе MMGP
  • 📝 Знаешь буквы и умеешь их компоновать? Платим. Дорого. Бессрочная акция от MMGP: "ОПЛАТА ЗА СООБЩЕНИЯ"
  • 💰 В данном разделе действует акция с оплатой за новые публикации
  • 📌 Внимание! Перед публикацией новостей ознакомьтесь с правилами новостных разделов

Alibaba Cloud заявляет, что сократила использование графических процессоров Nvidia AI на 82% благодаря новой системе объединения ресурсов

Alibaba.jpg

Alibaba Cloud заявляет, что их система пулинга Aegaeon снижает количество требуемых графических процессоров Nvidia на 82% для обслуживания больших языковых моделей (LLM) в ходе многомесячного бета-тестирования на платформе Model Studio. Эти результаты описаны в рецензируемой статье, представленной на симпозиуме ACM по операционным системам (SOSP) 2025 года в Сеуле, где предполагается, что облачные провайдеры могут повысить эффективность инференса на существующем оборудовании, особенно в условиях ограничений на импорт чипов Nvidia H20 в Китай из-за экспортных санкций США, введенных в октябре 2023 года и усиленных в 2024 году.

Однако такие утверждения требуют тщательной проверки: экономия в 82% (сокращение с 1192 до 213 GPU) основана на конкретной бета-версии с 47 моделями (от 1,8 до 72 млрд параметров) в течение 70 часов, с использованием избыточной конфигурации для отказоустойчивости, что может завышать реальные показатели в неоптимизированных средах.

В отличие от инноваций в обучении моделей, ориентированных на качество или скорость, Aegaeon представляет собой планировщик инференса, предназначенный для максимизации использования GPU при неравномерном спросе. Система виртуализирует доступ к GPU на уровне токенов, распределяя мелкие задачи по общему пулу, что позволяет одному H20 обслуживать несколько моделей одновременно и повысить «эффективную производительность» (goodput) до девяти раз по сравнению с традиционными серверлесс-системами.

Тем не менее, скептицизм оправдан: тесты проводились на синтетических нагрузках (на основе датасета ShareGPT с пуассоновскими прибытиями запросов, RPS от 0,1 до 0,5), предполагая независимые потоки и фиксированное время обслуживания (T=16,79 с), как указано в теореме 3.1 статьи (ожидаемое число активных моделей E[m] = M (1 - e^{-\lambda T})). Реальные сценарии с коррелированными пиками или не-Пуассоновыми распределениями могут снизить эффективность; кроме того, отсутствие батчинга между моделями увеличивает частоту малых батчей, потенциально снижая производительность на 10–20% по сравнению с мульти-модельным батчингом.

Система тестировалась в продакшене несколько месяцев, согласно статье, написанной авторами из Пекинского университета и инфраструктурного подразделения Alibaba, включая технического директора Цзинжэня Чжоу. В бета-тесте количество GPU для десятков LLM (до 72 млрд параметров) сократилось с 1192 до 213, с использованием H20 — одного из немногих ускорителей, доступных в Китае под санкциями.

Успех приписывается двум методам: размещению нескольких моделей на одном GPU (до 7 моделей на H800 в тестах) и автоскейлингу на уровне токенов для динамического распределения ресурсов. В бенчмарках Aegaeon превзошел ServerlessLLM и MuxServe по goodput в 1,5–9 раз, но baselines не были адаптированы под оптимизации vLLM (PagedAttention, FlashAttention), что могло исказить сравнение в пользу Aegaeon; кроме того, MuxServe ограничивался 2–3 моделями на GPU из-за фрагментации памяти, в то время как Aegaeon использует самодельные аллокаторы (bump для VRAM, slab для хоста), оставляя 10% VRAM для активаций.

Остается открытым вопрос о переносимости результатов за пределы экосистемы Alibaba. Статья не детализирует сетевую инфраструктуру, но компания полагается на eRDMA (elastic RDMA) с задержкой 2–5 мкс для межсерверного обмена, что критично для синхронизации KV-кэша; без подобной оптимизации (например, в стандартных AWS или Azure) эффективность может упасть. Кроме того, Aegaeon требует высокопроизводительных GPU (тесты на H800/A10 показывают снижение пулинга на низкоуровневом оборудовании) и предполагает поддержку vLLM, ограничивая совместимость.

Потенциальные предвзятости включают использование собственных профилированных констант для предсказаний задержек (R>0,9), идеализированные оракулы в baselines и фокус на 90%-ном SLO (TTFT=10 с, TBT=100 мс), игнорируя хвостовые задержки. По оценкам на 2025 год, глобальный спрос на GPU для инференса LLM вырос на 40% по сравнению с 2024 годом, делая такие решения актуальными, но для подтверждения универсальности нужны независимые тесты в открытых средах с полным доступом к методологии и данным.

Оригинал

Уникальность
 

Похожие темы

Сверху Снизу