📰 AI 뉴스2026-05-144분
OpenAI Realtime API, WebRTC 정식 GA—음성 앱 레이턴시 절반 수준
OpenAI가 WebRTC 기반 Realtime API를 정식 GA로 전환하며 평균 왕복 지연을 기존 WebSocket 방식 대비 약 50% 낮췄다. 한국 개발자는 별도 미디어 서버 없이 브라우저·모바일 클라이언트에서 직접 실시간 음성 대화 앱을 구축할 수 있게 됐다.
openairealtimewebrtc
무엇이 바뀌었나
OpenAI Realtime API가 WebRTC 전송 레이어를 정식 지원하면서 평균 왕복 레이턴시(RTT)가 300 ms → 150 ms 이하로 개선됐다. 기존 WebSocket 방식은 서버 사이드 오디오 스트리밍 처리가 필수였으나, WebRTC 경로에서는 클라이언트가 ICE/DTLS 협상을 통해 OpenAI 엣지 노드에 직접 연결된다. SDK는 openai Node.js 패키지 v5.3 이상, Python SDK v1.30 이상에 포함됐다.
개발자에게 실질적으로 달라지는 것
- 미디어 서버 제거 가능: 기존에는 Twilio·Daily 같은 서드파티 RTC 인프라가 필요했으나, 이제 프런트엔드에서
RTCPeerConnection을 직접 생성해 세션을 맺을 수 있다. - 턴 감지(VAD) 정밀도 향상: 서버 측 Voice Activity Detection 모델이 업데이트돼 배경 소음 환경에서 오탐율이 약 30% 감소했다고 OpenAI가 밝혔다.
- 함수 호출 병렬 실행: 음성 스트림 도중
tool_calls를 비동기로 처리할 수 있어 날씨·검색 등 실시간 도구 연동 시 체감 속도가 크게 개선된다. - 가격: 음성 입력·출력 토큰 단가는 공식 페이지 참조. WebRTC 전환 자체로 추가 요금은 없다.
한국 서비스 적용 포인트
콜센터 자동화·AI 튜터·보이스 커머스 등 실시간 음성 인터페이스가 핵심인 서비스에서 레이턴시 단축 효과가 두드러진다. 특히 브라우저 기반 데모나 MVP를 백엔드 인프라 없이 바로 배포할 수 있어 초기 프로토타이핑 비용이 크게 줄어든다. 다만 WebRTC NAT 통과 이슈가 기업 네트워크 환경에서 발생할 수 있으므로 TURN 서버 폴백 설정을 권장한다.
// 최소 연결 예시 (openai-node v5.3+)
import OpenAI from 'openai';
const client = new OpenAI();
const session = await client.beta.realtime.sessions.create({
model: 'gpt-4o-realtime-preview',
transport: 'webrtc',
});
// session.client_secret.value 로 RTCPeerConnection 협상 시작
출처: OpenAI Platform Changelog