Французская компания Mistral выпустила модель синтеза речи Voxtral с открытыми весами. По данным компании, модель поддерживает девять языков и может клонировать голоса на основе трехсекундного аудиофрагмента.
Вoxtral позволяет создавать синтетическую речь, используя минимальный объем исходного материала. Модель обучена работать с английским, французским, испанским, немецким, итальянским, португальским, нидерландским, русским и китайским языками.
Мистраль позиционирует Voxtral как открытую альтернативу коммерческим решениям для синтеза речи. Компания не раскрыла детали архитектуры модели и параметры обучения.
Выпуск Voxtral отражает тренд на рынке ИИ, где компании разрабатывают открытые модели для синтеза речи. Аналитики отмечают растущий спрос на инструменты локализации контента и создания голосовых интерфейсов.
Модель доступна для скачивания и использования в соответствии с лицензией Mistral. Компания заявляет о возможности развертывания Voxtral на локальных серверах без облачной инфраструктуры.
Источник: The Decoder