Китайская компания StepFun выпустила модель StepAudio 2.5 Realtime — сквозную систему для обработки речи в реальном времени. По данным компании, модель поддерживает полностью настраиваемые голосовые персоны и работает с китайским и английским языками.
Модель подключается через WebSocket API и позволяет создавать голосовых ассистентов с различными характеристиками. Система обучена с использованием методов усиленного обучения, специфичных для ролевого взаимодействия, и может распознавать паралингвистические элементы речи.
По информации компании, в апреле 2026 года StepAudio 2.5 Realtime заняла первое место по всем пяти тестовым параметрам. Модель получила оценку 80,41 балла при оценке человеком и 82,18 балла по показателю понимания паралингвистических характеристик.
Компания подчеркивает, что система предназначена для разработчиков и компаний, создающих голосовые приложения. Аналитики отмечают растущий спрос на модели обработки речи в реальном времени на рынке ИИ-решений.
Источник: Marktechpost
Реклама: 🔥 Хочешь получить Telegram Premium и стать гуру Polymarket? Кликай сюда!