k
korAI
AI 뉴스 전체
📰 AI 뉴스2026-05-234분

Anthropic, Claude Opus 4 확장 사고 모드 정식 GA—복잡한 추론 태스크 대응

Anthropic이 Claude Opus 4의 확장 사고(Extended Thinking) 모드를 API에서 정식 GA로 전환했다. 수학·코드 디버깅·다단계 플래닝 등 고난도 태스크에서 내부 추론 토큰을 명시적으로 활용해 응답 품질을 높이며, 한국 개발자들은 별도 플래그 없이 기존 API 호출만으로 해당 기능을 즉시 사용할 수 있다.

anthropicllmapi

무엇이 달라졌나

Claude Opus 4의 확장 사고 모드가 베타 딱지를 떼고 Anthropic API 및 Amazon Bedrock, Google Cloud Vertex AI에서 동시에 정식 지원된다. 기존 베타 단계에서는 betas 배열에 "interleaved-thinking-2025-05-14" 플래그를 명시해야 했으나, GA 전환 이후 해당 파라미터 없이도 thinking 블록이 응답에 포함된다.

확장 사고 토큰은 최대 32,000 토큰까지 설정 가능하며, 내부 추론 과정이 <thinking> 블록으로 스트리밍되어 디버깅·감사(audit) 목적으로 활용할 수 있다.

성능 수치 및 가격

  • 수학 경시(AIME 2025) 벤치마크에서 확장 사고 활성화 시 +18%p 정확도 향상 확인
  • 코드 디버깅(SWE-bench Verified) 기준 사고 토큰 16k 설정 시 63.4% 해결률 기록
  • 입력 토큰 단가: 공식 페이지 참조 / 사고 토큰은 출력 토큰과 동일 단가로 과금
  • 컨텍스트 윈도우는 기존 200k 토큰 유지

한국 개발자 적용 포인트

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-20260501",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000  # 사고 토큰 예산 설정
    },
    messages=[{
        "role": "user",
        "content": "다음 알고리즘의 시간복잡도를 분석하고 최적화 방안을 제시해줘."
    }]
)

for block in response.content:
    if block.type == "thinking":
        print("[추론 과정]", block.thinking)
    else:
        print("[최종 답변]", block.text)
  • budget_tokens를 낮게 설정하면 비용·지연 시간을 줄일 수 있어 프로덕션 환경에서 비용 제어가 가능하다.
  • 에이전트 파이프라인(LangChain, LlamaIndex)에서 다단계 플래닝 노드에 Opus 4를 배치하고, 단순 요약·분류 노드에는 Haiku 4.5를 유지하는 혼합 모델 전략이 권장된다.
  • Anthropic 콘솔의 Usage 대시보드에서 사고 토큰 사용량이 별도 행으로 집계되므로 비용 모니터링이 용이하다.
출처: Anthropic Documentation