Google представила TurboQuant — алгоритм сжатия для оптимизации работы больших языковых моделей. По данным исследовательской группы компании, новый метод сокращает объем памяти кэша Key-Value в 6 раз при сохранении точности модели.
Технология основана на фреймворке квантизации, независимом от данных. Алгоритм решает проблему узких мест при обработке длинных контекстов, когда размер кэша Key-Value масштабируется вместе с размерностью модели и длиной входной последовательности.
В ходе тестирования TurboQuant продемонстрировал ускорение вывода моделей до 8 раз. По информации Google, при этом не происходит потери точности работы модели. Компания отмечает, что алгоритм решает проблему задержек при передаче данных между высокопроизводительной памятью и кэшем процессора.
Разработка относится к направлению оптимизации инфраструктуры для LLM. Аналитики указывают на значимость таких решений для снижения вычислительных затрат при масштабировании моделей и обработке больших объемов текста.
Источник: Marktechpost
Реклама: 🔥 Хочешь получить Telegram Premium и стать гуру Polymarket? Кликай сюда!