Исследователи UCSD и Together AI разработали архитектуру Parcae для циклических языковых моделей, которая достигает качества трансформера в два раза большего размера при меньших вычислительных затратах.
По данным исследователей, новая архитектура решает проблему масштабирования качества моделей без пропорционального увеличения параметров. Традиционный подход к улучшению языковых моделей предполагает увеличение вычислительных операций, количества параметров и объема обучающих данных. Parcae использует циклическую структуру, которая позволяет переиспользовать слои модели для обработки информации на разных уровнях абстракции.
Архитектура особенно актуальна для развертывания моделей на периферийных устройствах и снижения затрат на инференс, где вычислительные ресурсы ограничены. Компания Together AI отмечает растущую долю вычислений, затрачиваемых на этап инференса в сравнении с обучением.
Исследователи подчеркивают, что стабильность архитектуры достигнута благодаря специальным механизмам регуляризации. Аналитики отмечают потенциал подхода для снижения энергопотребления и стоимости развертывания больших языковых моделей.
Разработка соответствует тренду оптимизации моделей искусственного интеллекта для практического применения в условиях ограниченных ресурсов.
Источник: Marktechpost
Реклама: 🔥 Хочешь получить Telegram Premium и стать гуру Polymarket? Кликай сюда!