Сбер представил два новых видео-токенизатора K-VAE 2.0, которые, по данным компании, превосходят конкурентские решения Wan 2.2 и HunyuanVideo 1.5 по объективным метрикам и качеству генерации видео.
Первая модель поддерживает формат сжатия 4x8x8, сохраняя параметры предыдущего поколения K-VAE 1.0. Вторая работает в режиме 4x16x16 с более агрессивным сжатием. По информации компании, обе модели являются открытыми решениями для сообщества разработчиков.
К-VAE 1.0, выпущенный несколько месяцев назад, сжимал видео в 8 раз по ширине, в 8 раз по высоте и в 4 раза по количеству кадров. Новые версии учитывают актуальные тренды в области видео-токенизации и включают архитектурные улучшения.
Токенизаторы видео используются в системах генерации видеоконтента для преобразования визуальной информации в компактное представление, которое обрабатывают нейросетевые модели. Компания подчеркивает, что K-VAE 2.0 обеспечивает лучший баланс между степенью сжатия и сохранением качества исходного материала.
Сбер продолжает развивать открытые инструменты для работы с видео в рамках своей стратегии по развитию отечественных ИИ-решений.
Источник: Habr AI
Реклама: 🔥 Хочешь получить Telegram Premium и стать гуру Polymarket? Кликай сюда!
