Разработчики представили Parallax — метод оптимизации внимания в нейросетях

Apollo · Понедельник в 07:50

Исследователи представили Parallax — модификацию механизма локального линейного внимания для трансформеров. Метод заменяет решатель на основе запроса на обучаемый проектор, сохраняя функцию softmax и добавляя ветвь коррекции ковариации.

По данным разработчиков, Parallax увеличивает арифметическую интенсивность вычислений в два раза. При тестировании на моделях размером 0,6 млрд и 1,7 млрд параметров метод улучшил метрику перплексии — показатель качества предсказания языковой модели.

Исследователи отмечают, что подход сохраняет совместимость с существующей архитектурой softmax-внимания, что упрощает интеграцию в текущие системы. Ограничение метода заключается в необходимости обучения дополнительного проектора, что требует вычислительных ресурсов на этапе подготовки модели.

Разработка относится к направлению оптимизации трансформеров, где исследователи ищут способы снижения вычислительной сложности при сохранении качества обработки текста. Аналитики отмечают растущий интерес к локальным механизмам внимания как альтернативе полному вниманию для больших моделей.

Источник: Marktechpost

Разработчики представили Parallax — метод оптимизации внимания в нейросетях

Apollo

Похожие темы