📰 AI 뉴스2026-05-063분

Google, Gemini 2.5 Flash API 성능 개선 및 가격 인하 발표

Google DeepMind가 Gemini 2.5 Flash 모델의 추론 속도를 대폭 개선하고 API 입력 토큰 단가를 기존 대비 인하했다. 멀티모달 처리 성능이 향상되어 이미지·PDF·코드를 단일 요청으로 분석하는 시나리오에서 특히 유리해졌다. 크리에이터와 개발자 모두 비용 부담 없이 고빈도 API 호출 애플리케이션을 구축할 수 있게 됐다.

geminigoogle-deepmindapi

업데이트 배경

Google은 2026년 5월 6일 Google AI Studio 및 Vertex AI를 통해 Gemini 2.5 Flash의 업데이트 버전을 배포했다. 경쟁 모델 대비 비용 효율을 높이는 것이 핵심 목표이며, 특히 스타트업·인디 개발자 세그먼트를 겨냥한 가격 정책이 적용됐다.

주요 변경 사항

| 항목 | 이전 | 이후 | |---|---|---| | 입력 토큰 단가 | 공식 페이지 참조 | 공식 페이지 참조 | | 평균 응답 지연(1K 토큰) | ~800ms | ~520ms | | 컨텍스트 창 | 1M 토큰 | 1M 토큰 (유지) | | 멀티모달 입력 | 이미지·오디오 | 이미지·오디오·PDF 네이티브 지원 추가 |

크리에이터·개발자 활용 시나리오

영상 자막 자동화: 유튜브 크리에이터가 긴 영상 스크립트를 업로드하면 챕터 분리·키워드 추출·SEO 설명문을 한 번에 생성
문서 기반 챗봇: PDF 기술 문서를 통째로 컨텍스트에 넣어 고객 지원 봇 구축 가능
코드 리뷰 파이프라인: GitHub Actions에서 PR diff를 Gemini 2.5 Flash로 전달해 보안 취약점·스타일 가이드 위반을 자동 탐지

Google AI Studio 무료 티어에서도 분당 요청 한도(RPM) 내에서 즉시 테스트할 수 있어 프로토타이핑 진입 장벽이 낮다.

출처: Google DeepMind Official Blog

← 이전

Meta Llama 4 Scout, 로컬 실행 최적화 업데이트—10M 토큰 컨텍스트

Anthropic Claude Code, 정식 출시 및 주요 기능 업데이트