Команда Qwen компании Alibaba выпустила модель Qwen3.5-LiveTranslate-Flash для одновременной обработки аудио и видео при переводе. По данным компании, модель поддерживает 60 входных языков и генерирует речевой вывод на 29 языках с задержкой 2,8 секунды.
Новая версия получила функцию клонирования голоса говорящего в реальном времени. Модель анализирует движения губ и текст на экране для повышения точности перевода. Система позволяет настраивать ключевые термины для специализированных областей.
По результатам тестирования на бенчмарках FLEURS и CoVoST2, модель показывает лучшие результаты, чем основные коммерческие аналоги. Компания не раскрыла конкретные цифры сравнения.
Модель доступна только через API в Alibaba Cloud Model Studio с использованием протокола WebSocket. Это ограничивает прямой доступ конечных пользователей к инструменту.
Аналитики отмечают, что снижение задержки до 2,8 секунды приближает технологию к практическому применению в синхронном переводе на конференциях и видеоконференциях. Однако качество перевода в специализированных областях остается зависимым от корректной настройки терминологии.
Источник: Marktechpost
Реклама: 🔥 Хочешь получить Telegram Premium и стать гуру Polymarket? Кликай сюда!