📰 AI 뉴스2026-05-284분
Anthropic, Claude Sonnet 4 확장 사고 모드 정식 GA—추론 토큰 예산 32K로 확대
Anthropic이 Claude Sonnet 4의 확장 사고(Extended Thinking) 모드를 정식 GA로 전환하며 추론 토큰 예산 상한을 기존 16K에서 32K 토큰으로 두 배 확대했다. 복잡한 다단계 코드 리팩터링, 아키텍처 설계, 수학적 증명 등 긴 사고 체인이 요구되는 작업에서 정확도가 크게 향상되어 한국 개발자의 프로덕션 워크플로우 도입 장벽이 낮아졌다.
anthropicllmdeveloper-tools
무엇이 바뀌었나
Anthropic은 2026년 5월 28일 Claude Sonnet 4의 Extended Thinking 기능을 정식 GA(General Availability)로 전환했다. 핵심 변경 사항은 다음과 같다.
- 추론 토큰 예산 상한: 16,000 토큰 → 32,000 토큰으로 확대
- 스트리밍 사고 블록:
thinking이벤트 타입을 SSE 스트림으로 실시간 수신 가능 (베타 기간 대비 지연 latency 약 18% 감소) - API 파라미터:
thinking: { type: "enabled", budget_tokens: N }형식 유지, 최대값만 상향 - 가격: 입력·출력 토큰 요금은 공식 페이지 참조 (사고 토큰은 출력 토큰으로 과금되는 기존 정책 유지)
개발자 실전 활용 포인트
확장 사고 모드는 단순 Q&A보다 복잡도 높은 엔지니어링 작업에서 ROI가 크다.
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-sonnet-4",
max_tokens=16000,
thinking={
"type": "enabled",
"budget_tokens": 32000 # 신규 최대값
},
messages=[{
"role": "user",
"content": "레거시 Django 모놀리스를 FastAPI 마이크로서비스로 단계적으로 분리하는 마이그레이션 전략을 설계해줘. DB 트랜잭션 경계와 이벤트 소싱 패턴을 포함해서."
}]
)
for block in response.content:
if block.type == "thinking":
print("[사고 과정]", block.thinking[:300], "...")
elif block.type == "text":
print("[최종 답변]", block.text)
추천 활용 시나리오:
| 작업 유형 | 권장 budget_tokens | 기대 효과 | |---|---|---| | 복잡한 리팩터링 계획 | 16,000~24,000 | 의존성 누락 최소화 | | 시스템 아키텍처 설계 | 24,000~32,000 | 트레이드오프 분석 심화 | | 알고리즘 증명·검증 | 8,000~16,000 | 논리 오류 감소 | | 단순 코드 완성 | 비활성화 권장 | 비용 절감 |
한국 개발팀을 위한 주의사항
- 레이턴시 트레이드오프: budget_tokens를 높일수록 첫 토큰 도달 시간(TTFT)이 증가한다. 실시간 사용자 인터랙션에는 8,000 이하로 제한하고, 백그라운드 배치 작업에 32,000을 활용하는 이중 파이프라인 전략을 권장한다.
- 스트리밍 사고 블록 활용: 사용자에게 "AI가 생각 중" 진행 상태를 시각적으로 표시하면 긴 레이턴시에 대한 UX 불만을 줄일 수 있다.
- Prompt Caching 병용: 긴 시스템 프롬프트(코드베이스 컨텍스트 등)에 캐시 제어 헤더를 적용하면 반복 호출 비용을 절감할 수 있다. 자세한 요금은 공식 페이지 참조.
- Claude Haiku 4.5와 혼합 사용: 분류·라우팅 레이어는 Haiku 4.5로 처리하고, 복잡 추론 단계만 Sonnet 4 Extended Thinking으로 넘기는 계층적 설계가 비용 효율적이다.
출처: Anthropic 공식 블로그