OpenAI представила набор голосовых функций для своего API, предназначенных для разработчиков приложений. По данным компании, новые инструменты позволяют создавать приложения, которые могут разговаривать, транскрибировать и переводить беседы с пользователями.
Компания запустила три основных компонента. GPT-Realtime-2 — это голосовая модель, построенная на базе GPT-5-класса рассуждений, предназначенная для обработки сложных запросов пользователей. GPT-Realtime-Translate обеспечивает перевод в реальном времени с поддержкой более 70 входных языков и 13 выходных языков. GPT-Realtime-Whisper предоставляет возможность преобразования речи в текст по мере развития разговора.
По информации OpenAI, новые модели позволяют перейти от простого диалога к голосовым интерфейсам, которые могут выполнять работу: слушать, рассуждать, переводить, транскрибировать и действовать в ходе беседы. Компания указывает на возможное применение функций в сфере обслуживания клиентов, образования, медиа, событийного менеджмента и платформ для создателей контента.
OpenAI встроила в систему защиту от злоупотреблений. По данным компании, разговоры могут быть остановлены при обнаружении нарушений политики в отношении вредоносного контента. Компания заявляет, что система предотвращает использование функций для создания спама, мошенничества и других форм онлайн-злоупотреблений.
Все новые голосовые модели включены в Realtime API компании. Translate и Whisper тарифицируются по минутам использования, а GPT-Realtime-2 — по потреблению токенов.
Источник: TechCrunch AI
Реклама: 🔥 Хочешь получить Telegram Premium и стать гуру Polymarket? Кликай сюда!
