📰 AI 뉴스2026-05-123분

Claude Sonnet 4.6 Extended Thinking, 응답 지연 40% 단축 업데이트

Anthropic이 Claude Sonnet 4.6의 Extended Thinking 모드 내부 추론 스케줄러를 개선해 동일 budget_tokens 설정 대비 평균 응답 지연을 40% 줄였다. 복잡한 코드 리뷰·수학 추론 파이프라인을 운영하는 팀에게 비용 대비 처리량이 실질적으로 개선된다.

anthropicclaudeextended-thinking

변경 내용 요약

Anthropic은 2026-05-12 배포 노트를 통해 claude-sonnet-4-6 모델의 Extended Thinking 스케줄러 업데이트를 공지했다. 핵심 변경은 두 가지다.

동적 thinking 청크 병렬화: 내부적으로 직렬 처리되던 reasoning 단계 일부를 병렬 실행하도록 전환, TTFT(Time To First Token)가 평균 1.8초 → 1.1초로 감소.
budget_tokens 자동 조정 힌트: API 요청 시 thinking.budget_tokens를 명시하지 않아도 시스템이 태스크 복잡도를 추정해 적정값을 자동 선택하는 "budget_tokens": "auto" 옵션 추가.

import anthropic

client = anthropic.Anthropic()
response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": "auto"  # 신규 옵션
    },
    messages=[{
        "role": "user",
        "content": "아래 Python 코드의 시간복잡도를 분석하고 최적화 방안을 제시해줘."
    }]
)

한국 개발자 실무 영향

Extended Thinking은 단순 챗봇보다 코드 리뷰 자동화, 테스트 케이스 생성, 아키텍처 의사결정 보조 등 고난도 태스크에 주로 쓰인다. 지연 40% 단축은 동기(synchronous) 방식으로 API를 호출하는 CI/CD 파이프라인에서 빌드 대기 시간 단축으로 직결된다. 비동기 스트리밍(stream=True)과 조합하면 UX 개선 효과가 더 크다.

budget_tokens: auto 도입으로 초기 파라미터 튜닝 없이 프로토타이핑이 가능해져, 사이드 프로젝트나 해커톤 환경에서의 진입 장벽도 낮아진다.

가격 및 호환성

이번 업데이트는 모델 버전 변경 없이 동일한 claude-sonnet-4-6 엔드포인트에 적용된다. 입출력 토큰 단가 및 thinking 토큰 과금 방식은 변동 없으며 자세한 수치는 공식 페이지 참조. 기존 코드베이스는 수정 없이 자동으로 개선된 스케줄러를 사용한다. Claude Opus 4.7·Haiku 4.5에 대한 동일 업데이트 적용 여부는 미정이다.

출처: Anthropic Release Notes / Anthropic API Changelog

← 이전

Cursor, 백그라운드 에이전트 정식 GA—병렬 코딩 태스크 동시 실행

Google DeepMind, Veo 3 영상 생성 API 개발자 프리뷰 공개