Google, Gemini 2.5 Flash Thinking 모드 API 정식 공개—추론 토큰 비용 별도 과금
Google DeepMind가 Gemini 2.5 Flash의 내부 추론 단계를 명시적으로 제어할 수 있는 'Thinking 모드'를 Gemini API에서 정식 GA로 전환했다. 개발자는 `thinking_budget` 파라미터로 추론 토큰 수를 0에서 최대 24,576 토큰까지 지정할 수 있어 응답 품질과 비용을 세밀하게 조율할 수 있다.
Thinking 모드 핵심 개념
Gemini 2.5 Flash Thinking 모드는 모델이 최종 답변을 생성하기 전에 내부적으로 단계별 추론 과정을 수행하게 하는 기능이다. 이 추론 과정(thinking tokens)은 응답 본문과 별도로 스트림에 포함되며, API 응답의 thinking_content 필드에서 확인할 수 있다. 크리에이터 도구나 코드 생성 에이전트에서 왜 이 결론에 도달했는지 사용자에게 투명하게 보여줄 수 있어 신뢰도 향상에 직접 기여한다.
가격 구조와 thinking_budget 설정
Thinking 모드 적용 시 과금은 두 구간으로 분리된다.
| 토큰 유형 | 단가 | |---|---| | 입력 토큰 (컨텍스트) | 공식 페이지 참조 | | 출력 토큰 (최종 답변) | 공식 페이지 참조 | | 추론 토큰 (thinking) | 공식 페이지 참조 |
thinking_budget을 0으로 설정하면 Thinking 모드가 비활성화되어 기존 Flash 속도·비용 그대로 사용할 수 있다. 복잡한 수학 문제나 멀티스텝 코드 디버깅에는 8,192~16,384 범위가 실용적이라고 Google은 가이드라인에서 권장한다.
컨텍스트 윈도는 최대 1M 토큰으로 유지되며, Thinking 모드 활성화 여부와 무관하게 동일하게 적용된다.
한국 개발자·크리에이터 활용 시나리오
개발자 — 복잡한 알고리즘 설계나 버그 원인 분석 시 thinking 출력을 로그로 저장해 디버깅 히스토리로 활용할 수 있다. google-generativeai Python SDK 0.8.0 이상에서 generation_config=GenerationConfig(thinking_budget=8192) 형태로 즉시 적용 가능하다.
크리에이터 — 스크립트 초안 작성이나 콘텐츠 구조 설계 시 모델의 사고 흐름을 참조해 아이디어를 발전시키는 '협업형 브레인스토밍' 워크플로에 응용할 수 있다.
Google AI Studio에서도 동일 파라미터를 슬라이더 UI로 조작할 수 있어 코드 없이도 빠르게 프로토타이핑이 가능하다. Vertex AI 엔드포인트에서도 동일 기능이 동시 GA 상태로 제공된다.