OpenAI Realtime API WebRTC 정식 GA—음성 대화 앱 구축 비용 공개
OpenAI가 Realtime API의 WebRTC 전송 방식을 정식 GA로 전환하면서, 브라우저·모바일 앱에서 별도 서버 없이 저지연 양방향 음성 스트리밍을 직접 구현할 수 있게 됐다. 오디오 입력 토큰 기준 $0.06/1K 토큰, 출력 $0.24/1K 토큰으로 가격이 확정되어 한국 개발자들이 서비스 원가 계산에 바로 활용할 수 있다.
무엇이 바뀌었나
OpenAI Realtime API는 기존 WebSocket 방식만 지원했으나, 이번 정식 GA를 통해 WebRTC 전송 레이어가 공식 프로덕션 등급으로 승격됐다. WebRTC를 사용하면 클라이언트(브라우저·iOS·Android)가 OpenAI 서버와 직접 피어 연결을 맺기 때문에, 개발자가 별도의 중계 서버(WebSocket 프록시)를 운영하지 않아도 된다. 이는 인프라 비용과 운영 복잡도를 동시에 낮추는 핵심 변경 사항이다.
지원 모델은 현재 gpt-4o-realtime-preview-2025-06-03 단일 버전이며, 음성 옵션은 Alloy·Echo·Shimmer·Verse 4종이다. 한국어 인식 품질은 공식 벤치마크 기준 Whisper large-v3 대비 지연 시간 40% 단축이 측정됐다고 OpenAI가 밝혔다.
가격 및 제한
| 항목 | 가격 | |---|---| | 오디오 입력 | $0.06 / 1K 토큰 | | 오디오 출력 | $0.24 / 1K 토큰 | | 텍스트 입력 | $5.00 / 1M 토큰 | | 텍스트 출력 | $20.00 / 1M 토큰 |
오디오 1초는 약 25 토큰으로 환산된다. 즉 1분 대화(입출력 각 30초) 기준 약 $0.135 수준이다. Tier 1 계정은 동시 세션 100개, Tier 4 이상은 1,000개 동시 세션까지 기본 허용되며, 추가 쿼터는 OpenAI 공식 페이지를 통해 신청할 수 있다.
WebRTC 모드에서는 Ephemeral Token 방식으로 인증하며, 토큰 유효 시간은 60초로 서버 사이드에서 발급 후 클라이언트에 전달해야 한다. API 키가 클라이언트에 노출되지 않으므로 보안 구조가 크게 개선됐다.
한국 개발자 적용 포인트
- AI 고객센터·상담 봇: 기존 TTS+STT 파이프라인을 단일 Realtime API 세션으로 대체하면 평균 응답 지연을 800ms 이하로 낮출 수 있다. 카카오톡 채널 연동 시 WebRTC 대신 WebSocket 모드를 사용해야 한다는 점에 주의.
- 언어 학습 앱: 발화 직후 실시간 피드백이 가능해지면서 영어·일본어 스피킹 코칭 앱에 즉시 적용 가능하다. Function Calling도 Realtime 세션 내에서 지원되므로 발음 교정 DB 조회를 인터럽트 없이 처리할 수 있다.
- 음성 코딩 어시스턴트: Cursor·VS Code Extension에서 음성으로 프롬프트를 입력하는 워크플로를 구현할 때, WebRTC 세션을 로컬 Electron 앱에 직접 임베드하는 방식이 이제 안정적으로 지원된다.
공식 QuickStart 및 Next.js 샘플 레포는 github.com/openai/openai-realtime-console에서 확인할 수 있으며, npm 패키지 openai v5.3.0 이상에서 OpenAIRealtimeWebRTC 클래스가 포함된다.