Google, Gemini API 실시간 멀티모달 스트리밍 일반 공개
Google DeepMind가 Gemini 2.5 Pro 기반의 실시간 오디오·비디오 스트리밍 API를 모든 유료 개발자에게 정식 개방했다. 평균 응답 지연이 300ms 미만으로 측정되어 라이브 인터랙티브 앱 개발의 진입 장벽이 크게 낮아졌다.
업데이트 개요
Google은 I/O 2026 직후 예고했던 Gemini Live API를 2026년 5월 4일부로 모든 Google AI Studio 및 Vertex AI 유료 티어에 정식 공개했다. 핵심은 단방향 텍스트 응답을 넘어 오디오 입력 → 실시간 텍스트·음성 출력을 단일 WebSocket 연결로 처리하는 구조다. 크리에이터와 개발자는 별도 STT/TTS 파이프라인 없이도 대화형 AI 콘텐츠를 제작할 수 있게 됐다.
핵심 스펙
| 항목 | 수치 | |---|---| | 기반 모델 | Gemini 2.5 Pro | | 오디오 응답 지연(P50) | 280ms | | 지원 입력 | 텍스트, 오디오(16kHz PCM), 화면 스트림 | | 최대 세션 길이 | 60분 | | 가격 | 공식 페이지 참조 |
기존 generateContent REST API와 달리 BidiGenerateContent WebSocket 엔드포인트를 사용하며, Python·Node.js·Go SDK가 동시에 업데이트됐다.
크리에이터·개발자 활용 시나리오
유튜브 라이브 AI 어시스턴트: 스트리머 화면을 실시간으로 분석해 시청자 질문에 즉각 답변하는 오버레이 봇 제작이 가능하다. 교육 앱: 학습자 음성을 받아 발음 교정 피드백을 300ms 내에 반환하는 인터랙티브 튜터 구현 사례가 이미 데모로 공개됐다. 한국어 지원: Gemini 2.5 Pro는 한국어 오디오 입력 인식률이 영어 대비 95% 수준으로 보고되어 있어 국내 서비스 적용에 실용적이다. Google AI Studio에서 무료 체험 쿼터로 프로토타입을 먼저 검증한 뒤 Vertex AI로 프로덕션 전환하는 경로를 권장한다.