• Добро пожаловать на инвестиционный форум!

    Во всем многообразии инвестиций трудно разобраться. MMGP станет вашим надежным помощником и путеводителем в мире инвестиций. Только самые последние тренды, передовые технологии и новые возможности. 400 тысяч пользователей уже выбрали нас. Самые актуальные новости, проверенные стратегии и способы заработка. Сюда люди приходят поделиться своим опытом, найти и обсудить новые перспективы. 16 миллионов сообщений, оставленных нашими пользователями, содержат их бесценный опыт и знания. Присоединяйтесь и вы!

    Впрочем, для начала надо зарегистрироваться!
  • 🐑 Моисей водил бесплатно. А мы платим, хотя тоже планируем работать 40 лет! Принимай участие в партнеской программе MMGP
  • 📝 Знаешь буквы и умеешь их компоновать? Платим. Дорого. Бессрочная акция от MMGP: "ОПЛАТА ЗА СООБЩЕНИЯ"
  • 💰 В данном разделе действует акция с оплатой за новые публикации
  • 📌 Внимание! Перед публикацией новостей ознакомьтесь с правилами новостных разделов

Pliops расширяет контекстные окна ИИ с помощью ускорителя на базе 3D NAND

Пилопс.jpg

По мере роста сложности языковых моделей и расширения их контекстных окон подключаемая к GPU память с высокой пропускной способностью (HBM) становится узким местом, вынуждая системы неоднократно пересчитывать данные, которые уже не помещаются в встроенную HBM. Компания Pliops решила эту проблему с помощью своего устройства XDP LightningAI и программного обеспечения FusIOnX, которые хранят предварительно вычисленный контекст на быстрых твердотельных накопителях и мгновенно извлекают его при необходимости, сообщает Blocks and Files.

Компания утверждает, что ее решение обеспечивает «почти» HBM-скорость и может ускорить некоторые рабочие процессы вывода в восемь раз. В процессе вывода языковые модели генерируют и ссылаются на данные с ключевыми значениями, чтобы управлять контекстом и поддерживать связность длинных последовательностей. Обычно эта информация хранится во встроенной памяти GPU, но когда активный контекст становится слишком большим, старые записи отбрасываются, заставляя систему заново выполнять вычисления, если эти записи нужны снова, что увеличивает задержку и нагрузку на GPU.

Чтобы устранить эти избыточные операции, компания Pliops представила новый уровень памяти, который обеспечивает ее машина XDP LightningAI - PCIe-устройство, управляющее перемещением данных с ключевыми значениями между GPU и десятками высокопроизводительных SSD-накопителей. Карта использует разработанный на заказ XDP ASIC и программный стек FusIOnX для эффективной обработки операций чтения/записи и интегрируется с такими фреймворками для обслуживания ИИ, как vLLM и Nvidia Dynamo.

Карта не зависит от GPU и может поддерживать как автономные, так и многопроцессорные серверы. В многоузловых развертываниях она также управляет маршрутизацией и совместным использованием кэшированных данных различными заданиями по выводу или пользователями, обеспечивая постоянное повторное использование контекста в масштабе.

Такая архитектура позволяет системам выводов ИИ поддерживать более длинные контексты, более высокий параллелизм и более эффективное использование ресурсов без масштабирования аппаратного обеспечения GPU. Вместо расширения памяти HBM за счет дополнительных GPU (следует помнить, что максимальный размер масштабируемого мира, или количество GPU, напрямую соединенных друг с другом, ограничено) Pliops позволяет системам сохранять больше истории контекста при меньших затратах и почти той же производительности, утверждает компания.

В результате становится возможным обслуживать большие модели со стабильной задержкой даже в сложных условиях, снижая при этом общую стоимость владения инфраструктурой ИИ. Хотя на бумаге даже 24 высокопроизводительных твердотельных накопителя PCIe 5.0 обеспечивают пропускную способность 336 ГБ/с, что значительно меньше пропускной способности памяти по сравнению с 3,35 ТБ/с у H100, отсутствие необходимости многократно пересчитывать данные обеспечивает значительный прирост производительности по сравнению с системами без устройства XDP LightningAI и программного обеспечения FusIOnX.

По словам Pliops, ее решение увеличивает пропускную способность типичного развертывания vLLM в 2,5-8 раз, позволяя системе обрабатывать больше пользовательских запросов в секунду без повышения требований к аппаратному обеспечению GPU.

Оригинал

Уникальность
 
Сверху Снизу