📰 AI 뉴스2026-05-234분

Anthropic, Claude Opus 4 확장 사고 모드 정식 GA—복잡한 추론 태스크 대응

Anthropic이 Claude Opus 4의 확장 사고(Extended Thinking) 모드를 API에서 정식 GA로 전환했다. 수학·코드 디버깅·다단계 플래닝 등 고난도 태스크에서 내부 추론 토큰을 명시적으로 활용해 응답 품질을 높이며, 한국 개발자들은 별도 플래그 없이 기존 API 호출만으로 해당 기능을 즉시 사용할 수 있다.

anthropicllmapi

무엇이 달라졌나

Claude Opus 4의 확장 사고 모드가 베타 딱지를 떼고 Anthropic API 및 Amazon Bedrock, Google Cloud Vertex AI에서 동시에 정식 지원된다. 기존 베타 단계에서는 betas 배열에 "interleaved-thinking-2025-05-14" 플래그를 명시해야 했으나, GA 전환 이후 해당 파라미터 없이도 thinking 블록이 응답에 포함된다.

확장 사고 토큰은 최대 32,000 토큰까지 설정 가능하며, 내부 추론 과정이 <thinking> 블록으로 스트리밍되어 디버깅·감사(audit) 목적으로 활용할 수 있다.

성능 수치 및 가격

수학 경시(AIME 2025) 벤치마크에서 확장 사고 활성화 시 +18%p 정확도 향상 확인
코드 디버깅(SWE-bench Verified) 기준 사고 토큰 16k 설정 시 63.4% 해결률 기록
입력 토큰 단가: 공식 페이지 참조 / 사고 토큰은 출력 토큰과 동일 단가로 과금
컨텍스트 윈도우는 기존 200k 토큰 유지

한국 개발자 적용 포인트

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-opus-4-20260501",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000  # 사고 토큰 예산 설정
    },
    messages=[{
        "role": "user",
        "content": "다음 알고리즘의 시간복잡도를 분석하고 최적화 방안을 제시해줘."
    }]
)

for block in response.content:
    if block.type == "thinking":
        print("[추론 과정]", block.thinking)
    else:
        print("[최종 답변]", block.text)

budget_tokens를 낮게 설정하면 비용·지연 시간을 줄일 수 있어 프로덕션 환경에서 비용 제어가 가능하다.
에이전트 파이프라인(LangChain, LlamaIndex)에서 다단계 플래닝 노드에 Opus 4를 배치하고, 단순 요약·분류 노드에는 Haiku 4.5를 유지하는 혼합 모델 전략이 권장된다.
Anthropic 콘솔의 Usage 대시보드에서 사고 토큰 사용량이 별도 행으로 집계되므로 비용 모니터링이 용이하다.

출처: Anthropic Documentation

← 이전

OpenAI, ChatGPT 내 Codex 클라우드 에이전트 정식 출시—코드베이스 자율 실행

GitHub Copilot Workspace, MCP 서버 연동 정식 지원