NVIDIA представила методику предварительного обучения нейросетей с использованием 4-битного формата NVFP4. По данным компании, методика сочетает избирательное применение слоев BF16, преобразования Адамара на входах градиентов, двумерное масштабирование весов и стохастическое округление градиентов.
Технология была протестирована на гибридной модели Mamba-Transformer объемом 12 миллиардов параметров, обученной на 10 триллионах токенов. По информации NVIDIA, это самый длительный документированный публично запуск 4-битного обучения.
В ходе тестирования точность модели на бенчмарке MMLU-Pro составила 62,58%, что близко к результату базовой модели FP8 с показателем 62,62%. Компания заявляет, что методика позволяет снизить требования к вычислительным ресурсам при сохранении качества обучения.
Аналитики отмечают, что 4-битное обучение может снизить энергопотребление и стоимость подготовки больших языковых моделей. Однако практическое применение методики требует дальнейшей валидации на других архитектурах и наборах данных.
Источник: Marktechpost
Реклама: 🔥 Хочешь получить Telegram Premium и стать гуру Polymarket? Кликай сюда!