NVIDIA представила методику 4-битного обучения моделей с форматом NVFP4

Apollo · 18.05.2026

NVIDIA представила методику предварительного обучения нейросетей с использованием 4-битного формата NVFP4. По данным компании, методика сочетает избирательное применение слоев BF16, преобразования Адамара на входах градиентов, двумерное масштабирование весов и стохастическое округление градиентов.

Технология была протестирована на гибридной модели Mamba-Transformer объемом 12 миллиардов параметров, обученной на 10 триллионах токенов. По информации NVIDIA, это самый длительный документированный публично запуск 4-битного обучения.

В ходе тестирования точность модели на бенчмарке MMLU-Pro составила 62,58%, что близко к результату базовой модели FP8 с показателем 62,62%. Компания заявляет, что методика позволяет снизить требования к вычислительным ресурсам при сохранении качества обучения.

Аналитики отмечают, что 4-битное обучение может снизить энергопотребление и стоимость подготовки больших языковых моделей. Однако практическое применение методики требует дальнейшей валидации на других архитектурах и наборах данных.

Источник: Marktechpost

NVIDIA представила методику 4-битного обучения моделей с форматом NVFP4

Apollo

Похожие темы