📰 AI 뉴스2026-05-234분
Anthropic, Claude Opus 4 확장 사고 모드 정식 GA—복잡한 추론 태스크 대응
Anthropic이 Claude Opus 4의 확장 사고(Extended Thinking) 모드를 API에서 정식 GA로 전환했다. 수학·코드 디버깅·다단계 플래닝 등 고난도 태스크에서 내부 추론 토큰을 명시적으로 활용해 응답 품질을 높이며, 한국 개발자들은 별도 플래그 없이 기존 API 호출만으로 해당 기능을 즉시 사용할 수 있다.
anthropicllmapi
무엇이 달라졌나
Claude Opus 4의 확장 사고 모드가 베타 딱지를 떼고 Anthropic API 및 Amazon Bedrock, Google Cloud Vertex AI에서 동시에 정식 지원된다. 기존 베타 단계에서는 betas 배열에 "interleaved-thinking-2025-05-14" 플래그를 명시해야 했으나, GA 전환 이후 해당 파라미터 없이도 thinking 블록이 응답에 포함된다.
확장 사고 토큰은 최대 32,000 토큰까지 설정 가능하며, 내부 추론 과정이 <thinking> 블록으로 스트리밍되어 디버깅·감사(audit) 목적으로 활용할 수 있다.
성능 수치 및 가격
- 수학 경시(AIME 2025) 벤치마크에서 확장 사고 활성화 시 +18%p 정확도 향상 확인
- 코드 디버깅(SWE-bench Verified) 기준 사고 토큰 16k 설정 시 63.4% 해결률 기록
- 입력 토큰 단가: 공식 페이지 참조 / 사고 토큰은 출력 토큰과 동일 단가로 과금
- 컨텍스트 윈도우는 기존 200k 토큰 유지
한국 개발자 적용 포인트
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-opus-4-20260501",
max_tokens=16000,
thinking={
"type": "enabled",
"budget_tokens": 10000 # 사고 토큰 예산 설정
},
messages=[{
"role": "user",
"content": "다음 알고리즘의 시간복잡도를 분석하고 최적화 방안을 제시해줘."
}]
)
for block in response.content:
if block.type == "thinking":
print("[추론 과정]", block.thinking)
else:
print("[최종 답변]", block.text)
budget_tokens를 낮게 설정하면 비용·지연 시간을 줄일 수 있어 프로덕션 환경에서 비용 제어가 가능하다.- 에이전트 파이프라인(LangChain, LlamaIndex)에서 다단계 플래닝 노드에 Opus 4를 배치하고, 단순 요약·분류 노드에는 Haiku 4.5를 유지하는 혼합 모델 전략이 권장된다.
- Anthropic 콘솔의 Usage 대시보드에서 사고 토큰 사용량이 별도 행으로 집계되므로 비용 모니터링이 용이하다.
출처: Anthropic Documentation