📰 AI 뉴스2026-05-094분

OpenAI Realtime API, WebRTC 방식 정식 GA 전환

OpenAI가 WebRTC 기반 Realtime API를 정식 GA로 전환하며 음성·텍스트 동시 스트리밍을 프로덕션 수준으로 지원한다. 기존 WebSocket 방식 대비 레이턴시가 평균 30% 개선되었으며, 한국 개발자는 별도 설정 없이 기존 API 키로 즉시 접근할 수 있다.

openairealtimewebrtc

무엇이 바뀌었나

OpenAI Realtime API가 WebRTC 전송 계층을 공식 지원하며 베타 딱지를 뗐다. 기존 WebSocket 엔드포인트는 유지되지만, WebRTC 방식은 브라우저 네이티브 연결을 활용해 중간 서버 없이 클라이언트와 OpenAI 서버를 직접 연결한다. 이로써 서버리스 아키텍처나 프론트엔드 단독 구현이 실질적으로 가능해졌다.

핵심 스펙 및 가격

오디오 입력: $100 / 1M 토큰 → 텍스트 변환 후 처리
오디오 출력: $200 / 1M 토큰 (공식 페이지 참조, 모델별 상이)
지원 모델: gpt-4o-realtime-preview 계열
최대 동시 세션: 계정 티어에 따라 상이, 공식 페이지 참조
평균 응답 레이턴시(WebRTC): 320ms 내외 (OpenAI 내부 측정 기준)

한국 개발자 적용 포인트

프론트엔드에서 RTCPeerConnection을 생성하고 OpenAI 제공 SDP 교환 엔드포인트(/v1/realtime/sessions)를 호출하는 방식으로 연결을 수립한다. Node.js 백엔드 없이 React·Next.js 클라이언트에서 바로 음성 대화형 앱을 구축할 수 있다. 단, API 키를 클라이언트에 직접 노출하지 않도록 임시 세션 토큰(ephemeral token) 발급 플로우를 반드시 구현해야 한다. 크리에이터 도구, 인터랙티브 교육 서비스, 실시간 번역 앱 등에 즉시 적용 가능하다.

출처: OpenAI Platform Changelog

← 이전

HuggingFace smolagents 1.0 안정화 릴리스—경량 AI 에이전트 프레임워크

Meta Llama 4 Scout, 로컬 추론 공식 지원—RTX 4090 단일 GPU 구동 확인