k
korAI
AI 뉴스 전체
📰 AI 뉴스2026-06-113분

Anthropic, Claude Sonnet 4.6 프롬프트 캐시 TTL 5분→1시간 확장

Anthropic이 Claude Sonnet 4.6의 프롬프트 캐싱 유지 시간을 기존 5분에서 최대 1시간으로 대폭 늘렸다. 대형 시스템 프롬프트나 긴 문서를 반복 참조하는 애플리케이션에서 API 비용을 최대 90%까지 절감할 수 있어 RAG·코드 리뷰 파이프라인 운영자에게 직접적인 효과가 기대된다.

anthropicclaudecost-optimization

변경 내용 요약

Anthropic은 2026년 6월 11일부터 Claude Sonnet 4.6 모델에 한해 cache_control 블록의 TTL(Time-To-Live) 옵션을 확장했다. 기존에는 캐시가 5분 후 자동 만료되어 사용자 세션이 잠시 끊기거나 요청 간격이 벌어지면 캐시 미스가 발생했다.

신규 TTL 옵션: | 옵션 | 유지 시간 | 캐시 쓰기 요금 | |------|-----------|----------------| | "ttl": "short" (기존 기본값) | 5분 | 기존과 동일 | | "ttl": "long" (신규) | 1시간 | 기존 대비 +10% 추가 |

캐시 히트 시 입력 토큰 요금은 기본 요금의 10% 수준으로 유지된다. 구체적인 토큰 단가는 공식 페이지 참조.

실전 코드 적용 방법

anthropic Python SDK 최신 버전에서 cache_control 파라미터에 ttl 키를 추가하면 된다.

import anthropic

client = anthropic.Anthropic()

system_prompt = open("large_codebase_context.md").read()  # 수만 토큰 분량

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    system=[
        {
            "type": "text",
            "text": system_prompt,
            "cache_control": {"type": "ephemeral", "ttl": "long"}  # 신규
        }
    ],
    messages=[{"role": "user", "content": "이 코드베이스에서 메모리 누수 패턴을 찾아줘"}]
)

print(response.usage)  # cache_read_input_tokens 확인

어떤 워크플로에 효과적인가

RAG 파이프라인: 검색된 문서 청크를 시스템 프롬프트에 포함시키고 사용자 질문만 교체하는 패턴에서 캐시 히트율이 크게 오른다. 특히 동시 사용자 수가 많은 SaaS 제품에서 비용 절감 효과가 누적된다.

코드 리뷰 봇: 전체 저장소 컨텍스트(README, 아키텍처 문서, 코드 스타일 가이드)를 캐시에 올려두고 PR별 diff만 추가 입력으로 전달하면 세션당 토큰 비용이 대폭 줄어든다.

주의 사항: "ttl": "long" 옵션은 현재 Claude Sonnet 4.6 전용이며, Claude Opus 4.7 및 Claude Haiku 4.5 적용 시점은 미정이다. 캐시 항목당 최소 1,024 토큰 이상이어야 캐싱이 활성화되는 기존 조건은 그대로 유지된다.

출처: Anthropic Developer Docs