Проект llama.cpp реализовал поддержку технологии Multi-Token Prediction для модели Qwen3.6 27B. По информации разработчиков, дополнительные слои MTP позволяют генерировать несколько токенов за один проход нейросети.
Технология работает за счет предсказания нескольких следующих токенов одновременно вместо последовательного их вычисления. Это сокращает количество необходимых проходов через модель.
В ходе тестирования скорость генерации увеличилась с 60 токенов в секунду до 130 токенов в секунду. По данным разработчиков, ускорение составило примерно в 1.5-2 раза. Размер модели увеличился на 0.3 гигабайта. Качество выходного текста остается без потерь.
Для моделей без встроенной поддержки MTP существуют альтернативные решения. К ним относятся EAGLE-3 и DFlash, которые добавляют функциональность многотокенного предсказания к существующим моделям.
Технология MTP позволяет снизить вычислительные затраты при развертывании больших языковых моделей. Аналитики отмечают, что такие оптимизации важны для практического применения моделей на устройствах с ограниченными ресурсами.
Источник: Habr AI
Реклама: 🔥 Хочешь получить Telegram Premium и стать гуру Polymarket? Кликай сюда!