Kubernetes внедрил механизм Dynamic Resource Allocation для более гибкого управления графическими процессорами. По информации разработчиков, новый подход заменяет традиционный Device Plugin, который рассматривает GPU только как счётчик доступных устройств на узле без учёта их характеристик.
Традиционный Device Plugin не различает профили GPU, объём памяти или режимы совместного использования устройств. Это создаёт ограничения для различных типов нагрузок: задачам машинного обучения требуются выделенные карточки целиком, инференсу нужно управление долями ресурсов, а CI-системам достаточно частичного доступа к устройству на короткий период.
Dynamic Resource Allocation преобразует GPU в полноценные сущности с инвентарём, атрибутами и правилами выбора. Система позволяет планировщику Kubernetes принимать решения на основе детальных характеристик устройств, а не только их количества.
По данным разработчиков Deckhouse, миграция с Device Plugin на DRA возможна без полного переписывания манифестов. На примере кластера из 8 узлов с 8 NVIDIA H100 на каждом демонстрируется постепенный переход к новой модели управления ресурсами.
Компания Deckhouse разрабатывает собственный DRA-драйвер для оптимизации работы с GPU в своей платформе. Разработчики отмечают, что стандартный API позволяет реализовать более сложные сценарии распределения вычислительных ресурсов.
Источник: Habr AI
Реклама: 🔥 Хочешь получить Telegram Premium и стать гуру Polymarket? Кликай сюда!