Google, Gemini 2.5 Flash 추론 예산 동적 제어 API 정식 GA
Google DeepMind가 Gemini 2.5 Flash의 '추론 예산(thinking budget)' 파라미터를 개발자가 요청 단위로 동적으로 조절할 수 있는 API를 정식 GA로 전환했다. 이로써 단순 분류 작업에는 추론을 최소화해 비용을 낮추고, 복잡한 코드 생성 작업에는 예산을 높여 품질을 극대화하는 혼합 전략이 가능해진다. 한국 스타트업 및 인디 크리에이터에게 토큰 비용 최적화의 실질적 수단이 생긴 셈이다.
무엇이 바뀌었나
Google AI Studio 및 Gemini API(v1beta → v1 정식)에서 thinkingConfig.thinkingBudget 파라미터가 일반 제공(GA)으로 전환됐다. 기존에는 dynamic 모드로 모델이 자동 결정하거나 고정 최대치만 선택 가능했으나, 이제 0 ~ 24,576 토큰 범위에서 정수값으로 직접 지정할 수 있다.
import google.generativeai as genai
model = genai.GenerativeModel("gemini-2.5-flash")
response = model.generate_content(
"이 함수의 엣지케이스를 모두 찾아줘",
generation_config={
"thinking_config": {"thinking_budget": 8192}
}
)
가격·성능 수치
| 모드 | 추론 토큰 | 입력 단가 | 출력 단가 | |---|---|---|---| | 추론 OFF (budget=0) | 0 | $0.075 / 1M | $0.30 / 1M | | 추론 ON (budget>0) | 과금 별도 | $0.075 / 1M | $3.50 / 1M(추론) |
가격은 공식 페이지 참조. 추론 토큰은 출력과 별도로 집계되므로 예산을 낮게 잡을수록 실질 비용이 선형에 가깝게 감소한다.
한국 개발자·크리에이터 활용 포인트
코드 리뷰 봇: PR 코멘트 분류(단순 오타 vs. 로직 버그)에 따라 예산을 분기 처리하면 API 비용을 30~50% 절감할 수 있다는 Google 내부 벤치마크가 공개됐다.
콘텐츠 자동화 파이프라인: 썸네일 키워드 추출처럼 반복·단순 작업에는 budget=0으로 설정해 응답 속도를 높이고, 스크립트 초안 생성에만 높은 예산을 할당하는 2-티어 구조가 권장된다.
Vertex AI 연동: 기업 환경에서는 Vertex AI SDK를 통해 동일 파라미터를 사용할 수 있으며, 한국 리전(asia-northeast3)에서도 지연 없이 지원된다고 Google이 공식 확인했다.