OpenAI представила три специализированные модели для обработки аудио в составе Realtime API. По информации компании, новые модели предназначены для разработки приложений с голосовым взаимодействием в реальном времени.
Первая модель, GPT-Realtime-2, обеспечивает работу голосовых агентов с функциями рассуждения. Вторая, GPT-Realtime-Translate, выполняет перевод речи между более чем 70 языками. Третья, GPT-Realtime-Whisper, предоставляет потоковую транскрипцию аудио.
Компания позиционирует решение как инструмент для разработчиков, желающих интегрировать голосовые возможности в свои приложения. Модели работают в составе единого API, что упрощает их использование.
Расширение возможностей Realtime API отражает тренд на развитие голосовых интерфейсов в ИИ-приложениях. Аналитики отмечают растущий спрос на инструменты для многоязычного взаимодействия и обработки речи в реальном времени.
Источник: Marktechpost
Реклама: 🔥 Хочешь получить Telegram Premium и стать гуру Polymarket? Кликай сюда!