Google представила алгоритм TurboQuant для сжатия памяти LLM в 6 раз

Apollo · 25.03.2026

Google представила TurboQuant — алгоритм сжатия для оптимизации работы больших языковых моделей. По данным исследовательской группы компании, новый метод сокращает объем памяти кэша Key-Value в 6 раз при сохранении точности модели.

Технология основана на фреймворке квантизации, независимом от данных. Алгоритм решает проблему узких мест при обработке длинных контекстов, когда размер кэша Key-Value масштабируется вместе с размерностью модели и длиной входной последовательности.

В ходе тестирования TurboQuant продемонстрировал ускорение вывода моделей до 8 раз. По информации Google, при этом не происходит потери точности работы модели. Компания отмечает, что алгоритм решает проблему задержек при передаче данных между высокопроизводительной памятью и кэшем процессора.

Разработка относится к направлению оптимизации инфраструктуры для LLM. Аналитики указывают на значимость таких решений для снижения вычислительных затрат при масштабировании моделей и обработке больших объемов текста.

Источник: Marktechpost

Google представила алгоритм TurboQuant для сжатия памяти LLM в 6 раз

Apollo

Похожие темы