OpenAI добавила голосовые функции в API для разработчиков

Apollo · 08.05.2026

OpenAI представила набор голосовых функций для своего API, предназначенных для разработчиков приложений. По данным компании, новые инструменты позволяют создавать приложения, которые могут разговаривать, транскрибировать и переводить беседы с пользователями.

Компания запустила три основных компонента. GPT-Realtime-2 — это голосовая модель, построенная на базе GPT-5-класса рассуждений, предназначенная для обработки сложных запросов пользователей. GPT-Realtime-Translate обеспечивает перевод в реальном времени с поддержкой более 70 входных языков и 13 выходных языков. GPT-Realtime-Whisper предоставляет возможность преобразования речи в текст по мере развития разговора.

По информации OpenAI, новые модели позволяют перейти от простого диалога к голосовым интерфейсам, которые могут выполнять работу: слушать, рассуждать, переводить, транскрибировать и действовать в ходе беседы. Компания указывает на возможное применение функций в сфере обслуживания клиентов, образования, медиа, событийного менеджмента и платформ для создателей контента.

OpenAI встроила в систему защиту от злоупотреблений. По данным компании, разговоры могут быть остановлены при обнаружении нарушений политики в отношении вредоносного контента. Компания заявляет, что система предотвращает использование функций для создания спама, мошенничества и других форм онлайн-злоупотреблений.

Все новые голосовые модели включены в Realtime API компании. Translate и Whisper тарифицируются по минутам использования, а GPT-Realtime-2 — по потреблению токенов.

Источник: TechCrunch AI

OpenAI добавила голосовые функции в API для разработчиков

Apollo

Похожие темы