📰 AI 뉴스2026-06-204분

Anthropic, Claude Opus 4 시스템 프롬프트 캐싱 정식 지원—긴 컨텍스트 반복 호출 최적화

Anthropic이 Claude Opus 4 모델에 대해 최대 200K 토큰 범위의 시스템 프롬프트 캐싱을 정식 지원하기 시작했다. 대형 코드베이스나 문서를 반복적으로 참조하는 에이전트 워크플로에서 입력 토큰 비용을 최대 90%까지 절감할 수 있어, 장문 컨텍스트를 활용하는 한국 개발자에게 실질적인 운영 비용 개선이 기대된다.

anthropicclaudecost-optimization

무엇이 바뀌었나

Anthropic은 2026년 6월 20일부로 Claude Opus 4 모델에 시스템 프롬프트 캐싱(Prompt Caching) 기능을 정식 적용했다. 기존에는 Haiku 4.5·Sonnet 계열에서만 안정적으로 사용 가능했으나, 이번 업데이트로 Opus 4도 동일한 캐싱 헤더(cache_control: {"type": "ephemeral"})를 통해 캐시 구간을 지정할 수 있다. 캐시 적중 시 입력 토큰 단가는 일반 입력 대비 약 10% 수준으로 과금된다(정확한 단가는 공식 페이지 참조).

개발자가 얻는 실질적 이점

에이전트 루프 비용 절감: 대규모 코드베이스 요약·API 스펙 문서·사내 가이드라인을 시스템 프롬프트에 삽입하고 반복 호출할 때, 캐시 적중률이 높을수록 비용이 기하급수적으로 낮아진다.
레이턴시 단축: 캐시 적중 시 첫 토큰 도달 시간(TTFT)이 비캐시 대비 평균 30~40% 단축된다고 Anthropic 공식 문서는 명시한다.
Claude Code 연동 시너지: Claude Code 에이전트가 대형 모노레포를 분석할 때 Opus 4 캐싱을 활용하면 세션당 토큰 지출을 대폭 줄일 수 있다.

# 캐싱 적용 예시 (Python SDK)
import anthropic

client = anthropic.Anthropic()

with open("large_codebase_summary.txt") as f:
    context = f.read()

response = client.messages.create(
    model="claude-opus-4-5",
    max_tokens=4096,
    system=[
        {
            "type": "text",
            "text": context,
            "cache_control": {"type": "ephemeral"}
        }
    ],
    messages=[{"role": "user", "content": "이 코드베이스의 인증 모듈을 리팩터링해줘."}]
)
print(response.usage)  # cache_read_input_tokens 확인

한국 개발자 적용 체크리스트

SDK 버전 확인: anthropic Python SDK 0.32.0 이상, TypeScript SDK 0.28.0 이상에서 Opus 4 캐싱 헤더가 안정 지원된다.
캐시 TTL: 현재 Opus 4 캐시 유효 시간은 1시간으로, 장시간 배치 작업에서는 주기적 갱신 로직을 고려해야 한다.
최소 캐시 토큰: 캐싱이 활성화되려면 캐시 구간 내 토큰이 최소 1,024개 이상이어야 한다.
과금 모니터링: usage.cache_read_input_tokens와 usage.cache_creation_input_tokens 필드를 로깅해 실제 절감액을 추적하는 것을 권장한다.

출처: Anthropic Official Documentation

← 이전

OpenAI, Codex 클라우드 샌드박스 정식 GA—격리 환경서 코드 자율 실행