Zyphra представила ZAYA1-8B-Diffusion-Preview, модель, полученную путем преобразования автарегрессивной языковой модели в дискретную диффузионную модель. По данным компании, преобразование не привело к потере производительности при оценке качества.
Модель достигает ускорения вывода до 7,7 раза по сравнению с автарегрессивным подходом. Это достигается за счет переноса декодирования из режима, ограниченного пропускной способностью памяти, в режим, ограниченный вычислительной мощностью.
По информации Zyphra, такой подход имеет значение для современных графических процессоров, которые увеличивают вычислительную мощность быстрее, чем пропускную способность памяти. Компания использовала архитектуру Mixture of Experts (MoE) при разработке модели.
Диффузионные модели обычно применяются для генерации изображений, однако Zyphra продемонстрировала возможность их использования для текстовой генерации на основе существующих языковых моделей. Специалисты отмечают, что такой подход может снизить требования к памяти при развертывании моделей на вычислительных системах.
Источник: Marktechpost
Реклама: 🔥 Хочешь получить Telegram Premium и стать гуру Polymarket? Кликай сюда!