Инженеры опытного азиатского подразделения Microsoft создали нейросеть VASA-1, способную генерировать реалистические видео говорящего человека с естественной мимикой, используя для этого только одно фото и аудиодорожку.
Как сообщила компания Microsoft, нейросеть VASA-1 обучалась на наборе данных VoxCeleb2, содержащем «свыше 1 млн высказываний 6112 знаменитостей» из видео на Ютубе. Главной особенностью нейросети, по сравнению с другими алгоритмами, созданными конеурентами, является целостная модель генерации лицевой мимики и головных движений в ней. Microsoft провела масштабную исследовательскую работу, в том числе оценку ряда новейших метрик.
Компания установила, что VASA-1 значительно превосходит представленные ранее аналоги по многим параметрам. Помимо фотографий, нейросеть умеет работать с портретами, созданными в любом художественном стиле.
Несмотря на то, что во время тщательного просмотра движения уст и головы в демонстрационных примерах все еще выглядят немного роботизированными и несинхронизированными, результаты выглядят довольно убедительными. Становится понятно, что технологии можно злоупотреблять для легкого и быстрого создания дипфейков.
Осознавая этот потенциал, исследователи решили не выпускать продукт на рынок, пока не будут уверены, что их технология «используется ответственно и в соответствии с надлежащими положениями» .
По их оценке, несмотря на риски создания дипфейков, технология может иметь ряд случаев полезного применения: в частности, в образовании и для лиц, которые испытывают трудности с онлайн-общением, и могли бы создавать аватары для этого.
по материалам
уникальность