Два студента создали речевую модель на основе искусственного интеллекта, способную конкурировать с NotebookLM

Asal · 23.04.2025

Пара студентов, не обладающих обширным опытом в области ИИ, утверждают, что создали общедоступную модель ИИ, способную генерировать ролики в стиле подкастов, аналогичные NotebookLM от Google.

Рынок инструментов для синтеза речи огромен и постоянно растет. ElevenLabs - один из крупнейших игроков, но нет недостатка и в претендентах (см. PlayAI, Sesame и др.). Инвесторы считают, что эти инструменты обладают огромным потенциалом. По данным PitchBook, в прошлом году стартапы, разрабатывающие технологии голосового ИИ, привлекли более 398 миллионов долларов в виде венчурного финансирования.

Тоби Ким, один из корейских соучредителей компании Nari Labs, стоящей за новой моделью, рассказал, что он и его сооснователь начали изучать речевой ИИ три месяца назад. Вдохновившись NotebookLM, они захотели создать модель, которая обеспечивала бы больший контроль над генерируемыми голосами и «свободу в сценарии».

Ким говорит, что для обучения модели Nari, Dia, они использовали программу Google TPU Research Cloud, которая предоставляет исследователям бесплатный доступ к чипам TPU AI компании. Имея 1,6 миллиарда параметров, Dia может генерировать диалог по сценарию, позволяя пользователям настраивать тональность дикторов, вставлять неточности, кашель, смех и другие невербальные сигналы.

Параметры - это внутренние переменные, которые модели используют для прогнозирования. Как правило, модели с большим количеством параметров работают лучше.
Dia доступна на платформе для разработки ИИ Hugging Face и на GitHub и может работать на большинстве современных ПК с не менее чем 10 ГБ VRAM. Он генерирует случайный голос, если его не попросить описать предполагаемый стиль, но он также может клонировать голос человека.

Во время краткого тестирования Dia в веб-демонстрации Nari, проведенного TechCrunch, Dia работала довольно хорошо, непринужденно генерируя двусторонние чаты на любые темы. Качество голосов кажется конкурентоспособным по сравнению с другими инструментами, а функция клонирования голоса - одна из самых простых, которые пробовал этот репортер.

Вот образец:

Как и многие другие генераторы голосов, Dia не предлагает практически никаких гарантий. Создать дезинформацию или мошенническую запись будет проще простого. На страницах проекта Dia компания Nari не рекомендует злоупотреблять моделью для выдачи себя за другого человека, обмана или участия в незаконных кампаниях, но при этом заявляет, что «не несет ответственности» за злоупотребления.

Nari также не раскрывает, какие данные были собраны для обучения Dia. Возможно, при разработке Dia использовался контент, защищенный авторским правом - комментатор на Hacker News отмечает, что один из образцов звучит как ведущий подкаста NPR «Planet Money». Обучение моделей на контенте, защищенном авторским правом, - широко распространенная, но сомнительная с юридической точки зрения практика. Некоторые компании, занимающиеся разработкой ИИ, утверждают, что добросовестное использование защищает их от ответственности, в то время как правообладатели утверждают, что добросовестное использование не распространяется на обучение.

В любом случае, по словам Кима, в планах Nari - создание платформы синтетического голоса с «социальным аспектом» на базе Dia и более крупных будущих моделей. Nari также намерена выпустить технический отчет по Dia и расширить поддержку модели на другие языки, помимо английского.

Оригинал

Уникальность

Два студента создали речевую модель на основе искусственного интеллекта, способную конкурировать с NotebookLM

Похожие темы