В мрачной саге о новейших графических процессорах Nvidia RTX 5090 и RTX PRO 6000 разворачивается тревожная драма: воспроизводимая ошибка виртуализации, способная парализовать эти передовые устройства, оставляя их безжизненными до полной физической перезагрузки хост-системы. Это не просто сбой — это потенциальная угроза для архитектуры Blackwell, ставящая под вопрос надежность технологий, на которые возлагаются огромные надежды.
Облачный провайдер GPU CloudRift, столкнувшись с этой аномалией на множестве систем с Blackwell в боевых условиях, опубликовал детальный анализ катастрофы. В отчаянной попытке найти спасение компания объявила награду в $1000 за раскрытие первопричины или способа устранения этого зловещего дефекта.
Тень над Blackwell: сбой, разрушающий системы
Логи CloudRift рисуют пугающую картину. Проблема возникает, когда GPU передается в виртуальную машину через KVM и VFIO. После завершения работы гостевой системы или попытки перераспределения GPU хост инициирует стандартный сброс на уровне функции PCIe (FLR) — рутинную операцию для очистки устройства. Но вместо восстановления в стабильное состояние GPU погружается в цифровую кому. Ядро отчаянно сигнализирует: «не готово через 65535 мс после FLR; сдаемся». Карта исчезает из поля зрения системы, а команда lspci выдает зловещие сообщения об ошибке: «неизвестный тип заголовка 7f».
Единственный способ оживить систему — полное отключение питания машины, что равносильно реанимации целого сервера ради одного компонента. Стартап Tiny Corp, создатель tinygrad, поднял тревогу, перепостив выводы CloudRift на X.com с вопросом, звучащим как обвинение: «Неужели RTX 5090 и RTX PRO 6000 страдают от аппаратного дефекта? Мы исследовали это, но спасения не нашли».
Эхо сбоев в сообществе
Тени этого сбоя расползаются по форумам Proxmox и сообществу Level1Techs, где первые пользователи RTX 5090 сообщают о подобных кошмарах. Один пользователь описал полное зависание хоста после завершения работы гостевой Windows, с GPU, отказывающимся оживать даже после перезагрузки ОС. Другой свидетельствовал: «Мой хост стал неуправляемым. Отладка показала, что процессор хоста попал в мягкую блокировку после тайм-аута FLR, вызванного завершением LinuxVM. Моя прежняя RTX 4080 никогда не подводила».
Эксперименты с настройками PCIe ASPM и ACS оказались тщетными — сбой неумолим. Примечательно, что более старые карты, такие как RTX 4090, не затронуты этой напастью, что наводит на мысль, что проклятье ограничено семейством Blackwell.
Ставки высоки
Функция FLR — краеугольный камень в конфигурациях с передачей GPU, обеспечивающий безопасный сброс и перераспределение устройств между виртуальными машинами. Если этот механизм ненадежен, многоарендные рабочие нагрузки ИИ и домашние лабораторные установки превращаются в минное поле, где сбой одного компонента может обрушить всю систему. Это не просто техническая неполадка — это вызов стабильности инфраструктур, зависящих от виртуализации.
На момент написания Nvidia хранит молчание, словно не замечая надвигающейся бури. Никаких решений или обходных путей не предложено, оставляя пользователей в напряженном ожидании. Этот сбой — не просто ошибка, а тень, нависшая над будущим Blackwell, угрожающая подорвать доверие к архитектуре, которая должна была стать триумфом инженерной мысли.
Оригинал
Уникальность