Лвмин Чжан на GitHub в сотрудничестве с Манешем Агравалой из Стэнфордского университета представил на этой неделе FramePack. FramePack предлагает практическую реализацию диффузии видео с использованием временного контекста фиксированной длины для более эффективной обработки, что позволяет создавать более длинные и качественные видео.
Модель с 13 миллиардами параметров, построенная с использованием архитектуры FramePack, может создать 60-секундный ролик, используя всего 6 ГБ видеопамяти. FramePack - это нейросетевая архитектура, использующая многоступенчатые методы оптимизации для создания локальных видеороликов с помощью искусственного интеллекта. На момент написания статьи в графическом интерфейсе FramePack используется пользовательская модель на основе Hunyuan, хотя в исследовательской статье упоминается, что существующие предварительно обученные модели могут быть точно настроены с помощью FramePack.
Типичные диффузионные модели обрабатывают данные из ранее сгенерированных зашумленных кадров, чтобы предсказать следующий, чуть менее зашумленный кадр. Количество входных кадров, учитываемых для каждого предсказания, называется длиной временного контекста, которая растет с увеличением размера видео. Стандартные модели диффузии видео требуют большого пула VRAM - 12 ГБ обычно являются отправной точкой. Конечно, можно обойтись и меньшим объемом памяти, но за это придется заплатить короткими клипами, более низким качеством и большим временем обработки.
Введите FramePack: новая архитектура, которая сжимает входные кадры, основываясь на их важности, в контекст фиксированного размера, что значительно сокращает накладные расходы памяти GPU. Все кадры должны быть сжаты, чтобы сойтись на желаемой верхней границе длины контекста. Авторы описывают вычислительные затраты как схожие с диффузией изображений.
В сочетании с техникой, позволяющей уменьшить «дрейф», когда качество ухудшается с увеличением длины видео, FramePack позволяет генерировать более длинные видео без существенного ущерба для достоверности. В настоящее время для работы FramePack требуется GPU серии RTX 30/40/50 с поддержкой форматов данных FP16 и BF16. Поддержка архитектуры Turing и более старых архитектур не подтверждена, аппаратное обеспечение AMD/Intel не упоминается. Linux также входит в число поддерживаемых операционных систем.
За исключением RTX 3050 4 ГБ, большинство современных графических процессоров (RTX) соответствуют критерию 6 ГБ или превышают его. Что касается скорости, то RTX 4090 может выдавать до 0,6 кадра в секунду (оптимизировано с помощью teacache), так что все зависит от вашей видеокарты. В любом случае, каждый кадр будет отображаться после его генерации, обеспечивая мгновенную визуальную обратную связь.
В модели, находящейся в свободной продаже, вероятно, установлено ограничение в 30 кадров в секунду, что может быть ограничением для многих пользователей. Тем не менее, вместо того чтобы полагаться на дорогостоящие сторонние сервисы, FramePack прокладывает путь к тому, чтобы сделать генерацию видео с искусственным интеллектом более доступной для рядового потребителя. Даже если вы не создатель контента, это очень интересный инструмент для создания GIF, мемов и прочего.
Оригинал
УНикальность