📰 AI 뉴스2026-06-134분

Google, Gemini 2.5 Flash Thinking 모드 API 정식 공개—추론 토큰 비용 별도 과금

Google DeepMind가 Gemini 2.5 Flash의 내부 추론 단계를 명시적으로 제어할 수 있는 'Thinking 모드'를 Gemini API에서 정식 GA로 전환했다. 개발자는 `thinking_budget` 파라미터로 추론 토큰 수를 0에서 최대 24,576 토큰까지 지정할 수 있어 응답 품질과 비용을 세밀하게 조율할 수 있다.

googlegeminillm

Thinking 모드 핵심 개념

Gemini 2.5 Flash Thinking 모드는 모델이 최종 답변을 생성하기 전에 내부적으로 단계별 추론 과정을 수행하게 하는 기능이다. 이 추론 과정(thinking tokens)은 응답 본문과 별도로 스트림에 포함되며, API 응답의 thinking_content 필드에서 확인할 수 있다. 크리에이터 도구나 코드 생성 에이전트에서 왜 이 결론에 도달했는지 사용자에게 투명하게 보여줄 수 있어 신뢰도 향상에 직접 기여한다.

가격 구조와 `thinking_budget` 설정

Thinking 모드 적용 시 과금은 두 구간으로 분리된다.

| 토큰 유형 | 단가 | |---|---| | 입력 토큰 (컨텍스트) | 공식 페이지 참조 | | 출력 토큰 (최종 답변) | 공식 페이지 참조 | | 추론 토큰 (thinking) | 공식 페이지 참조 |

thinking_budget을 0으로 설정하면 Thinking 모드가 비활성화되어 기존 Flash 속도·비용 그대로 사용할 수 있다. 복잡한 수학 문제나 멀티스텝 코드 디버깅에는 8,192~16,384 범위가 실용적이라고 Google은 가이드라인에서 권장한다.

컨텍스트 윈도는 최대 1M 토큰으로 유지되며, Thinking 모드 활성화 여부와 무관하게 동일하게 적용된다.

한국 개발자·크리에이터 활용 시나리오

개발자 — 복잡한 알고리즘 설계나 버그 원인 분석 시 thinking 출력을 로그로 저장해 디버깅 히스토리로 활용할 수 있다. google-generativeai Python SDK 0.8.0 이상에서 generation_config=GenerationConfig(thinking_budget=8192) 형태로 즉시 적용 가능하다.

크리에이터 — 스크립트 초안 작성이나 콘텐츠 구조 설계 시 모델의 사고 흐름을 참조해 아이디어를 발전시키는 '협업형 브레인스토밍' 워크플로에 응용할 수 있다.

Google AI Studio에서도 동일 파라미터를 슬라이더 UI로 조작할 수 있어 코드 없이도 빠르게 프로토타이핑이 가능하다. Vertex AI 엔드포인트에서도 동일 기능이 동시 GA 상태로 제공된다.

출처: Google DeepMind 공식 블로그

← 이전

Cursor, 백그라운드 에이전트 정식 출시—클라우드에서 코드 자율 실행

Anthropic, Claude Code SDK 정식 GA—CI/CD 파이프라인 자동화 직접 통합

Thinking 모드 핵심 개념

가격 구조와 thinking_budget 설정

한국 개발자·크리에이터 활용 시나리오

가격 구조와 `thinking_budget` 설정