📰 AI 뉴스2026-05-284분

Anthropic, Claude Sonnet 4 확장 사고 모드 정식 GA—추론 토큰 예산 32K로 확대

Anthropic이 Claude Sonnet 4의 확장 사고(Extended Thinking) 모드를 정식 GA로 전환하며 추론 토큰 예산 상한을 기존 16K에서 32K 토큰으로 두 배 확대했다. 복잡한 다단계 코드 리팩터링, 아키텍처 설계, 수학적 증명 등 긴 사고 체인이 요구되는 작업에서 정확도가 크게 향상되어 한국 개발자의 프로덕션 워크플로우 도입 장벽이 낮아졌다.

anthropicllmdeveloper-tools

무엇이 바뀌었나

Anthropic은 2026년 5월 28일 Claude Sonnet 4의 Extended Thinking 기능을 정식 GA(General Availability)로 전환했다. 핵심 변경 사항은 다음과 같다.

추론 토큰 예산 상한: 16,000 토큰 → 32,000 토큰으로 확대
스트리밍 사고 블록: thinking 이벤트 타입을 SSE 스트림으로 실시간 수신 가능 (베타 기간 대비 지연 latency 약 18% 감소)
API 파라미터: thinking: { type: "enabled", budget_tokens: N } 형식 유지, 최대값만 상향
가격: 입력·출력 토큰 요금은 공식 페이지 참조 (사고 토큰은 출력 토큰으로 과금되는 기존 정책 유지)

개발자 실전 활용 포인트

확장 사고 모드는 단순 Q&A보다 복잡도 높은 엔지니어링 작업에서 ROI가 크다.

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-sonnet-4",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 32000  # 신규 최대값
    },
    messages=[{
        "role": "user",
        "content": "레거시 Django 모놀리스를 FastAPI 마이크로서비스로 단계적으로 분리하는 마이그레이션 전략을 설계해줘. DB 트랜잭션 경계와 이벤트 소싱 패턴을 포함해서."
    }]
)

for block in response.content:
    if block.type == "thinking":
        print("[사고 과정]", block.thinking[:300], "...")
    elif block.type == "text":
        print("[최종 답변]", block.text)

추천 활용 시나리오:

| 작업 유형 | 권장 budget_tokens | 기대 효과 | |---|---|---| | 복잡한 리팩터링 계획 | 16,000~24,000 | 의존성 누락 최소화 | | 시스템 아키텍처 설계 | 24,000~32,000 | 트레이드오프 분석 심화 | | 알고리즘 증명·검증 | 8,000~16,000 | 논리 오류 감소 | | 단순 코드 완성 | 비활성화 권장 | 비용 절감 |

한국 개발팀을 위한 주의사항

레이턴시 트레이드오프: budget_tokens를 높일수록 첫 토큰 도달 시간(TTFT)이 증가한다. 실시간 사용자 인터랙션에는 8,000 이하로 제한하고, 백그라운드 배치 작업에 32,000을 활용하는 이중 파이프라인 전략을 권장한다.
스트리밍 사고 블록 활용: 사용자에게 "AI가 생각 중" 진행 상태를 시각적으로 표시하면 긴 레이턴시에 대한 UX 불만을 줄일 수 있다.
Prompt Caching 병용: 긴 시스템 프롬프트(코드베이스 컨텍스트 등)에 캐시 제어 헤더를 적용하면 반복 호출 비용을 절감할 수 있다. 자세한 요금은 공식 페이지 참조.
Claude Haiku 4.5와 혼합 사용: 분류·라우팅 레이어는 Haiku 4.5로 처리하고, 복잡 추론 단계만 Sonnet 4 Extended Thinking으로 넘기는 계층적 설계가 비용 효율적이다.

출처: Anthropic 공식 블로그

← 이전

Google, Gemini 2.5 Flash 추론 예산 토큰 제어 기능 정식 GA

EU AI법 범용 AI 행동강령 최종안 확정—한국 서비스 수출 시 준수 필수