Anthropic, Claude Sonnet 4.6 프롬프트 캐시 TTL 5분→1시간 확장
Anthropic이 Claude Sonnet 4.6의 프롬프트 캐싱 유지 시간을 기존 5분에서 1시간으로 대폭 연장했다. 긴 시스템 프롬프트나 대용량 RAG 컨텍스트를 반복 호출하는 워크플로에서 캐시 히트율이 크게 오르고, 입력 토큰 비용을 최대 90%까지 줄일 수 있다.
변경 내용 요약
Anthropic은 2026년 5월 20일부로 Claude Sonnet 4.6 API의 프롬프트 캐시 TTL(Time-To-Live) 을 기존 5분에서 1시간으로 12배 연장한다고 공식 문서에 명시했다. 캐시 쓰기(cache write) 요금은 기존과 동일하게 일반 입력 토큰 대비 1.25× 적용되며, 캐시 읽기(cache read)는 0.1× 로 유지된다. 정확한 단가는 공식 페이지 참조.
개발자 실무 영향
긴 TTL은 다음 시나리오에서 즉각적인 비용 절감 효과를 낸다.
- 에이전트 루프: 동일 시스템 프롬프트(수천~수만 토큰)를 반복 호출하는 AutoGen·LangGraph 기반 파이프라인에서 세션 중 캐시가 만료되지 않아 매 턴마다 재기록 비용이 사라진다.
- RAG 프리픽스 캐싱: 검색 결과 청크를 컨텍스트 앞부분에 고정해 두는 패턴에서 1시간 내 반복 질의 시 읽기 요금만 과금된다.
- 코드 리뷰 봇: CI/CD 파이프라인에서 동일 저장소 컨텍스트(README, CONTRIBUTING, 코드 스타일 가이드)를 붙여 연속 PR을 처리하는 경우 캐시 재활용률이 높아진다.
캐시 활성화는 API 요청의 system 또는 messages 블록에 "cache_control": {"type": "ephemeral"} 플래그를 추가하는 방식으로 기존과 동일하다.
크리에이터·콘텐츠 자동화 관점
유튜브 스크립트 자동 생성, 다회차 뉴스레터 초안 작성처럼 동일한 브랜드 가이드라인·톤 앤 매너 문서를 프롬프트 앞에 붙이고 여러 주제를 연속 처리하는 워크플로에서 1시간 TTL은 사실상 작업 배치 전 구간을 캐시 유효 범위 안에 포함시킨다. Claude Code나 커스텀 스크립트로 배치 작업을 구성할 때 cache_control 플래그 하나로 비용 구조가 크게 달라지므로, 기존 코드베이스의 프롬프트 구성 방식을 재검토할 시점이다.