Пара студентов, не обладающих обширным опытом в области ИИ, утверждают, что создали общедоступную модель ИИ, способную генерировать ролики в стиле подкастов, аналогичные NotebookLM от Google.
Рынок инструментов для синтеза речи огромен и постоянно растет. ElevenLabs - один из крупнейших игроков, но нет недостатка и в претендентах (см. PlayAI, Sesame и др.). Инвесторы считают, что эти инструменты обладают огромным потенциалом. По данным PitchBook, в прошлом году стартапы, разрабатывающие технологии голосового ИИ, привлекли более 398 миллионов долларов в виде венчурного финансирования.
Тоби Ким, один из корейских соучредителей компании Nari Labs, стоящей за новой моделью, рассказал, что он и его сооснователь начали изучать речевой ИИ три месяца назад. Вдохновившись NotebookLM, они захотели создать модель, которая обеспечивала бы больший контроль над генерируемыми голосами и «свободу в сценарии».
Ким говорит, что для обучения модели Nari, Dia, они использовали программу Google TPU Research Cloud, которая предоставляет исследователям бесплатный доступ к чипам TPU AI компании. Имея 1,6 миллиарда параметров, Dia может генерировать диалог по сценарию, позволяя пользователям настраивать тональность дикторов, вставлять неточности, кашель, смех и другие невербальные сигналы.
Параметры - это внутренние переменные, которые модели используют для прогнозирования. Как правило, модели с большим количеством параметров работают лучше.
Dia доступна на платформе для разработки ИИ Hugging Face и на GitHub и может работать на большинстве современных ПК с не менее чем 10 ГБ VRAM. Он генерирует случайный голос, если его не попросить описать предполагаемый стиль, но он также может клонировать голос человека.
Во время краткого тестирования Dia в веб-демонстрации Nari, проведенного TechCrunch, Dia работала довольно хорошо, непринужденно генерируя двусторонние чаты на любые темы. Качество голосов кажется конкурентоспособным по сравнению с другими инструментами, а функция клонирования голоса - одна из самых простых, которые пробовал этот репортер.
Вот образец:
Nari также не раскрывает, какие данные были собраны для обучения Dia. Возможно, при разработке Dia использовался контент, защищенный авторским правом - комментатор на Hacker News отмечает, что один из образцов звучит как ведущий подкаста NPR «Planet Money». Обучение моделей на контенте, защищенном авторским правом, - широко распространенная, но сомнительная с юридической точки зрения практика. Некоторые компании, занимающиеся разработкой ИИ, утверждают, что добросовестное использование защищает их от ответственности, в то время как правообладатели утверждают, что добросовестное использование не распространяется на обучение.
В любом случае, по словам Кима, в планах Nari - создание платформы синтетического голоса с «социальным аспектом» на базе Dia и более крупных будущих моделей. Nari также намерена выпустить технический отчет по Dia и расширить поддержку модели на другие языки, помимо английского.
Оригинал
Уникальность