📰 AI 뉴스2026-06-184분

Google, Gemini 2.5 Flash-Lite 정식 GA—저비용 고속 추론 API 공개

Google DeepMind가 Gemini 2.5 Flash-Lite를 Google AI Studio 및 Vertex AI에서 정식 GA로 전환했다. 기존 Gemini 2.5 Flash 대비 입출력 토큰 단가를 최대 50% 낮추면서 응답 지연은 유사하게 유지해, 대량 배치 처리나 비용 민감형 프로덕션 파이프라인에 실질적인 대안이 생겼다.

googlegeminiapi

무엇이 달라졌나

Gemini 2.5 Flash-Lite는 2026년 6월 18일부로 프리뷰 딱지를 떼고 정식 GA 상태로 전환됐다. Google AI Studio와 Vertex AI 양쪽에서 동일한 모델 ID(gemini-2.5-flash-lite)로 호출 가능하며, SLA가 적용되는 프로덕션 워크로드에 바로 투입할 수 있다.

주요 스펙은 다음과 같다.

컨텍스트 윈도우: 1,048,576 토큰 (입력) / 65,536 토큰 (출력)
멀티모달: 텍스트·이미지·오디오·비디오 입력 지원
가격: 공식 페이지 참조 (Flash 대비 약 50% 할인 구조 발표)
속도: 내부 벤치마크 기준 첫 토큰 지연(TTFT) Flash와 동등 수준 유지

한국 개발자에게 왜 중요한가

대규모 문서 요약, 로그 분석, RAG 파이프라인처럼 API 호출 횟수가 많고 단가 민감도가 높은 시나리오에서 Flash-Lite는 직접적인 비용 절감 레버가 된다. 특히 스타트업이나 사이드 프로젝트에서 월 수백만 건 이상 호출할 때 Flash 대비 절반 수준의 청구서를 기대할 수 있다.

Vertex AI에서 GA 전환으로 기업 보안 정책(VPC Service Controls, CMEK) 이 그대로 적용되므로, 금융·헬스케어 도메인 개발자도 컴플라이언스 이슈 없이 사용 가능하다.

마이그레이션 체크리스트

기존 Gemini 2.5 Flash 사용자가 Flash-Lite로 전환할 때 확인할 사항은 다음과 같다.

모델 ID 변경: gemini-2.5-flash → gemini-2.5-flash-lite로 한 줄만 수정
thinking 예산 파라미터: Flash-Lite는 기본적으로 thinkingBudget이 더 낮게 설정되어 복잡한 다단계 추론 태스크에서는 정확도 저하 가능성 검토 필요
출력 토큰 한도: 최대 65,536 토큰으로 Flash(8,192 기본)보다 높지만, 실제 과금 구조 확인 후 max_output_tokens 값 재조정 권장
평가(Eval) 재실행: 모델 경량화로 인해 도메인 특화 작업에서 품질 편차가 날 수 있으므로 기존 골든셋으로 A/B 비교 필수

출처: Google DeepMind Blog

← 이전

OpenAI Realtime API WebRTC 전송 방식 정식 GA—지연 50ms 이하 달성

Hugging Face, 서드파티 추론 프로바이더 통합 API 정식 공개