Исследователи представили Parallax — модификацию механизма локального линейного внимания для трансформеров. Метод заменяет решатель на основе запроса на обучаемый проектор, сохраняя функцию softmax и добавляя ветвь коррекции ковариации.
По данным разработчиков, Parallax увеличивает арифметическую интенсивность вычислений в два раза. При тестировании на моделях размером 0,6 млрд и 1,7 млрд параметров метод улучшил метрику перплексии — показатель качества предсказания языковой модели.
Исследователи отмечают, что подход сохраняет совместимость с существующей архитектурой softmax-внимания, что упрощает интеграцию в текущие системы. Ограничение метода заключается в необходимости обучения дополнительного проектора, что требует вычислительных ресурсов на этапе подготовки модели.
Разработка относится к направлению оптимизации трансформеров, где исследователи ищут способы снижения вычислительной сложности при сохранении качества обработки текста. Аналитики отмечают растущий интерес к локальным механизмам внимания как альтернативе полному вниманию для больших моделей.
Источник: Marktechpost
Реклама: 🔥 Хочешь получить Telegram Premium и стать гуру Polymarket? Кликай сюда!