Claude Sonnet 4.6 Extended Thinking, 응답 지연 40% 단축 업데이트
Anthropic이 Claude Sonnet 4.6의 Extended Thinking 모드 내부 추론 스케줄러를 개선해 동일 budget_tokens 설정 대비 평균 응답 지연을 40% 줄였다. 복잡한 코드 리뷰·수학 추론 파이프라인을 운영하는 팀에게 비용 대비 처리량이 실질적으로 개선된다.
변경 내용 요약
Anthropic은 2026-05-12 배포 노트를 통해 claude-sonnet-4-6 모델의 Extended Thinking 스케줄러 업데이트를 공지했다. 핵심 변경은 두 가지다.
- 동적 thinking 청크 병렬화: 내부적으로 직렬 처리되던 reasoning 단계 일부를 병렬 실행하도록 전환, TTFT(Time To First Token)가 평균 1.8초 → 1.1초로 감소.
- budget_tokens 자동 조정 힌트: API 요청 시
thinking.budget_tokens를 명시하지 않아도 시스템이 태스크 복잡도를 추정해 적정값을 자동 선택하는"budget_tokens": "auto"옵션 추가.
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=16000,
thinking={
"type": "enabled",
"budget_tokens": "auto" # 신규 옵션
},
messages=[{
"role": "user",
"content": "아래 Python 코드의 시간복잡도를 분석하고 최적화 방안을 제시해줘."
}]
)
한국 개발자 실무 영향
Extended Thinking은 단순 챗봇보다 코드 리뷰 자동화, 테스트 케이스 생성, 아키텍처 의사결정 보조 등 고난도 태스크에 주로 쓰인다. 지연 40% 단축은 동기(synchronous) 방식으로 API를 호출하는 CI/CD 파이프라인에서 빌드 대기 시간 단축으로 직결된다. 비동기 스트리밍(stream=True)과 조합하면 UX 개선 효과가 더 크다.
budget_tokens: auto 도입으로 초기 파라미터 튜닝 없이 프로토타이핑이 가능해져, 사이드 프로젝트나 해커톤 환경에서의 진입 장벽도 낮아진다.
가격 및 호환성
이번 업데이트는 모델 버전 변경 없이 동일한 claude-sonnet-4-6 엔드포인트에 적용된다. 입출력 토큰 단가 및 thinking 토큰 과금 방식은 변동 없으며 자세한 수치는 공식 페이지 참조. 기존 코드베이스는 수정 없이 자동으로 개선된 스케줄러를 사용한다. Claude Opus 4.7·Haiku 4.5에 대한 동일 업데이트 적용 여부는 미정이다.