UCSD и Together AI представили архитектуру Parcae для оптимизации языковых моделей

Apollo · 16.04.2026

Исследователи UCSD и Together AI разработали архитектуру Parcae для циклических языковых моделей, которая достигает качества трансформера в два раза большего размера при меньших вычислительных затратах.

По данным исследователей, новая архитектура решает проблему масштабирования качества моделей без пропорционального увеличения параметров. Традиционный подход к улучшению языковых моделей предполагает увеличение вычислительных операций, количества параметров и объема обучающих данных. Parcae использует циклическую структуру, которая позволяет переиспользовать слои модели для обработки информации на разных уровнях абстракции.

Архитектура особенно актуальна для развертывания моделей на периферийных устройствах и снижения затрат на инференс, где вычислительные ресурсы ограничены. Компания Together AI отмечает растущую долю вычислений, затрачиваемых на этап инференса в сравнении с обучением.

Исследователи подчеркивают, что стабильность архитектуры достигнута благодаря специальным механизмам регуляризации. Аналитики отмечают потенциал подхода для снижения энергопотребления и стоимости развертывания больших языковых моделей.

Разработка соответствует тренду оптимизации моделей искусственного интеллекта для практического применения в условиях ограниченных ресурсов.

Источник: Marktechpost

UCSD и Together AI представили архитектуру Parcae для оптимизации языковых моделей

Apollo

Похожие темы