Google, Gemini 2.5 Flash 추론 예산 토큰 제어 기능 정식 GA
Google DeepMind가 Gemini 2.5 Flash의 '추론 예산(Thinking Budget)' 파라미터를 정식 GA로 전환했다. 개발자가 모델의 내부 추론 토큰 수를 0~24,576 범위에서 직접 지정할 수 있어, 응답 속도와 추론 깊이를 태스크 유형에 맞게 트레이드오프 조정하는 것이 가능해졌다.
추론 예산 파라미터란
Gemini 2.5 Flash는 응답을 생성하기 전 내부적으로 '생각 토큰'을 소비하는 하이브리드 추론 구조를 갖는다. 정식 GA 전환과 함께 thinking_config.thinking_budget 파라미터가 안정화되어 프로덕션 사용이 공식 권장된다.
| 예산 범위 | 권장 사용 사례 | 예상 지연 감소 | |---|---|---| | 0 (비활성) | 단순 분류·요약 | 최대 40% 빠름 | | 1,024~4,096 | 일반 Q&A, 코드 자동완성 | 기본 대비 동일 | | 8,192~24,576 | 수학 증명, 복잡한 디버깅 | 최대 35% 느림 |
정확한 토큰 단가는 공식 페이지 참조.
한국 개발자 활용 시나리오
1. 실시간 IDE 자동완성: thinking_budget=0으로 설정하면 추론 단계를 건너뛰어 단순 코드 완성 레이턴시를 최소화할 수 있다.
2. 야간 배치 코드 리뷰: thinking_budget=16384 이상으로 설정하면 보안 취약점·논리 오류를 더 깊이 분석한다. 속도보다 정확도가 중요한 CI 파이프라인에 적합하다.
3. 챗봇 동적 조정: 사용자 쿼리 복잡도를 사전 분류한 뒤 예산을 동적으로 할당하면 비용과 품질을 동시에 최적화할 수 있다.
API 사용 예시 (Python)
import google.generativeai as genai
model = genai.GenerativeModel("gemini-2.5-flash")
response = model.generate_content(
"다음 알고리즘의 시간복잡도를 증명하라: ...",
generation_config=genai.GenerationConfig(
thinking_config=genai.ThinkingConfig(
thinking_budget=12288 # 0~24576 사이 정수
)
)
)
print(response.text)
주의사항
thinking_budget=0은 추론을 완전 비활성화하므로 복잡한 다단계 문제에는 품질 저하가 발생할 수 있다.- Google AI Studio에서 슬라이더 UI로 값을 시각적으로 조정해 볼 수 있다.
- Vertex AI 및 Google AI SDK 0.8.0 이상에서 파라미터가 지원된다.