📰 AI 뉴스2026-05-044분

Google, Gemini API 실시간 멀티모달 스트리밍 일반 공개

Google DeepMind가 Gemini 2.5 Pro 기반의 실시간 오디오·비디오 스트리밍 API를 모든 유료 개발자에게 정식 개방했다. 평균 응답 지연이 300ms 미만으로 측정되어 라이브 인터랙티브 앱 개발의 진입 장벽이 크게 낮아졌다.

googlemultimodalapi

업데이트 개요

Google은 I/O 2026 직후 예고했던 Gemini Live API를 2026년 5월 4일부로 모든 Google AI Studio 및 Vertex AI 유료 티어에 정식 공개했다. 핵심은 단방향 텍스트 응답을 넘어 오디오 입력 → 실시간 텍스트·음성 출력을 단일 WebSocket 연결로 처리하는 구조다. 크리에이터와 개발자는 별도 STT/TTS 파이프라인 없이도 대화형 AI 콘텐츠를 제작할 수 있게 됐다.

핵심 스펙

| 항목 | 수치 | |---|---| | 기반 모델 | Gemini 2.5 Pro | | 오디오 응답 지연(P50) | 280ms | | 지원 입력 | 텍스트, 오디오(16kHz PCM), 화면 스트림 | | 최대 세션 길이 | 60분 | | 가격 | 공식 페이지 참조 |

기존 generateContent REST API와 달리 BidiGenerateContent WebSocket 엔드포인트를 사용하며, Python·Node.js·Go SDK가 동시에 업데이트됐다.

크리에이터·개발자 활용 시나리오

유튜브 라이브 AI 어시스턴트: 스트리머 화면을 실시간으로 분석해 시청자 질문에 즉각 답변하는 오버레이 봇 제작이 가능하다. 교육 앱: 학습자 음성을 받아 발음 교정 피드백을 300ms 내에 반환하는 인터랙티브 튜터 구현 사례가 이미 데모로 공개됐다. 한국어 지원: Gemini 2.5 Pro는 한국어 오디오 입력 인식률이 영어 대비 95% 수준으로 보고되어 있어 국내 서비스 적용에 실용적이다. Google AI Studio에서 무료 체험 쿼터로 프로토타입을 먼저 검증한 뒤 Vertex AI로 프로덕션 전환하는 경로를 권장한다.

출처: Google DeepMind Official Blog

← 이전

프롬프트 엔지니어링 한국어 입문 — 초보가 알아야 할 7가지

Anthropic, Claude Code 정식 출시…터미널 기반 AI 코딩 에이전트 공개