Компания Sesame, занимающаяся разработкой искусственного интеллекта, выпустила базовую модель, на основе которой работает Maya, впечатляюще реалистичный голосовой помощник.
Модель, размер которой составляет 1 миллиард параметров («параметры» означают отдельные компоненты модели), находится под лицензией Apache 2.0, что означает возможность ее коммерческого использования с небольшими ограничениями. Модель под названием CSM-1B генерирует «аудиокоды RVQ» из текстовых и аудиоданных, говорится в описании Sesame на платформе для разработки ИИ Hugging Face.
RVQ - это «остаточное векторное квантование», техника кодирования аудио в дискретные лексемы, называемые кодами. RVQ используется в ряде последних аудиотехнологий ИИ, включая SoundStream от Google и Encodec от Meta.
CSM-1B использует модель из семейства Llama компании Meta в качестве основы в паре с компонентом «декодера» аудио. По словам Sesame, доработанный вариант CSM используется в Maya.
«Модель, выложенная в открытый доступ, является моделью базового поколения», - пишет Sesame в репозиториях CSM-1B Hugging Face и GitHub. «Она способна воспроизводить различные голоса, но не была отточена для какого-либо конкретного голоса [...] Модель обладает некоторым потенциалом для неанглийских языков благодаря загрязнению данных в обучающих данных, но, скорее всего, она не будет работать хорошо».
Неясно, какие данные Sesame использовала для обучения CSM-1B. Компания не сообщила об этом.
Стоит отметить, что модель не имеет никаких реальных гарантий. Sesame использует систему честности и лишь призывает разработчиков и пользователей не использовать модель для имитации голоса человека без его согласия, создания вводящего в заблуждение контента, например фальшивых новостей, или для «вредной» или «злонамеренной» деятельности.
Я попробовал демо-версию на Hugging Face, и клонирование моего голоса заняло меньше минуты. После этого я с легкостью генерировал речь по своему желанию, в том числе на такие спорные темы, как выборы и российская пропаганда.
Consumer Reports недавно предупредил, что многие популярные инструменты для клонирования голоса с помощью искусственного интеллекта, представленные на рынке, не имеют «значимых» гарантий для предотвращения мошенничества или злоупотреблений.
Компания Sesame, основанная одним из создателей Oculus Бренданом Айрибом, в конце февраля получила широкую известность благодаря своему ассистенту, который близок к тому, чтобы преодолеть территорию долины сверхъестественного. Майя и другой помощник Sesame, Майлз, делают вдох и говорят с нарушениями, а также могут быть прерваны во время разговора, как в голосовом режиме OpenAI.
Компания Sesame привлекла нераскрытый капитал от Andreessen Horowitz, Spark Capital и Matrix Partners. Помимо создания голосового помощника, компания заявляет, что разрабатывает прототип очков с искусственным интеллектом, «предназначенных для ношения в течение всего дня», которые будут оснащены ее пользовательскими моделями.
Оригинал
Уникальность