Anthropic, Claude Sonnet 4.6 프롬프트 캐시 TTL 5분→1시간 확장
Anthropic이 Claude Sonnet 4.6의 프롬프트 캐싱 유지 시간을 기존 5분에서 최대 1시간으로 대폭 늘렸다. 대형 시스템 프롬프트나 긴 문서를 반복 참조하는 애플리케이션에서 API 비용을 최대 90%까지 절감할 수 있어 RAG·코드 리뷰 파이프라인 운영자에게 직접적인 효과가 기대된다.
변경 내용 요약
Anthropic은 2026년 6월 11일부터 Claude Sonnet 4.6 모델에 한해 cache_control 블록의 TTL(Time-To-Live) 옵션을 확장했다. 기존에는 캐시가 5분 후 자동 만료되어 사용자 세션이 잠시 끊기거나 요청 간격이 벌어지면 캐시 미스가 발생했다.
신규 TTL 옵션:
| 옵션 | 유지 시간 | 캐시 쓰기 요금 |
|------|-----------|----------------|
| "ttl": "short" (기존 기본값) | 5분 | 기존과 동일 |
| "ttl": "long" (신규) | 1시간 | 기존 대비 +10% 추가 |
캐시 히트 시 입력 토큰 요금은 기본 요금의 10% 수준으로 유지된다. 구체적인 토큰 단가는 공식 페이지 참조.
실전 코드 적용 방법
anthropic Python SDK 최신 버전에서 cache_control 파라미터에 ttl 키를 추가하면 된다.
import anthropic
client = anthropic.Anthropic()
system_prompt = open("large_codebase_context.md").read() # 수만 토큰 분량
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
system=[
{
"type": "text",
"text": system_prompt,
"cache_control": {"type": "ephemeral", "ttl": "long"} # 신규
}
],
messages=[{"role": "user", "content": "이 코드베이스에서 메모리 누수 패턴을 찾아줘"}]
)
print(response.usage) # cache_read_input_tokens 확인
어떤 워크플로에 효과적인가
RAG 파이프라인: 검색된 문서 청크를 시스템 프롬프트에 포함시키고 사용자 질문만 교체하는 패턴에서 캐시 히트율이 크게 오른다. 특히 동시 사용자 수가 많은 SaaS 제품에서 비용 절감 효과가 누적된다.
코드 리뷰 봇: 전체 저장소 컨텍스트(README, 아키텍처 문서, 코드 스타일 가이드)를 캐시에 올려두고 PR별 diff만 추가 입력으로 전달하면 세션당 토큰 비용이 대폭 줄어든다.
주의 사항: "ttl": "long" 옵션은 현재 Claude Sonnet 4.6 전용이며, Claude Opus 4.7 및 Claude Haiku 4.5 적용 시점은 미정이다. 캐시 항목당 최소 1,024 토큰 이상이어야 캐싱이 활성화되는 기존 조건은 그대로 유지된다.