📰 AI 뉴스2026-06-104분
OpenAI, Realtime API WebRTC 모드 정식 GA—브라우저 직접 음성 통화 구현
OpenAI가 Realtime API의 WebRTC 전송 방식을 정식 GA로 전환했다. 기존 WebSocket 방식 대비 서버 중계 없이 브라우저와 모델 간 직접 저지연 음성 스트림이 가능해져, 별도 백엔드 없이 클라이언트 단에서 실시간 음성 대화 앱을 구현할 수 있다. 한국 크리에이터·스타트업의 음성 인터페이스 프로토타입 비용과 인프라 복잡도가 대폭 줄어들 전망이다.
openairealtimewebrtc
무엇이 바뀌었나
OpenAI Realtime API는 이제 WebRTC와 WebSocket 두 가지 전송 방식을 공식 지원한다. WebRTC 모드는 브라우저의 네이티브 RTCPeerConnection을 통해 오디오 스트림을 OpenAI 엣지 서버와 직접 교환한다. 이로써 개발자는 별도의 미디어 릴레이 서버 없이 <10ms 수준의 턴어라운드 레이턴시를 확보할 수 있다.
개발자가 얻는 실질적 이점
- 인프라 간소화: WebSocket 방식은 오디오 바이트를 앱 서버 → OpenAI로 중계해야 했지만, WebRTC 모드는 브라우저가 직접 ICE/DTLS 핸드셰이크 후 연결한다.
- 비용 구조: 오디오 입력 토큰·출력 토큰 단가는 공식 페이지 참조. 세션 연결 자체에 추가 요금은 없다.
- 보안 고려: 클라이언트에 API 키가 노출되지 않도록 Ephemeral Token(단기 세션 토큰) 발급 엔드포인트가 함께 GA됐다. 서버에서 단기 토큰을 발급해 브라우저에 전달하는 패턴을 공식 권장한다.
- 지원 모델:
gpt-4o-realtime-preview및gpt-4o-mini-realtime-preview두 모델이 WebRTC 세션을 지원한다.
한국 개발자 적용 시나리오
음성 기반 고객 상담 위젯, 실시간 언어 학습 앱, 라이브 스트리밍 AI 패널 등 브라우저 단에서 완결되는 제품에 곧바로 적용 가능하다. Next.js 프로젝트 기준으로 Ephemeral Token API 라우트 하나와 클라이언트 측 50줄 미만의 WebRTC 코드로 PoC를 완성할 수 있다. 공식 JavaScript SDK(openai npm 패키지 v5 이상)에 RealtimeClient 헬퍼가 포함돼 있어 별도 WebRTC 라이브러리 없이도 연동된다.
출처: OpenAI Platform Changelog