📰 AI 뉴스2026-06-174분
Anthropic, 프롬프트 캐시 TTL 5분→1시간으로 확장—반복 호출 비용 대폭 절감
Anthropic이 Claude API의 프롬프트 캐싱(Prompt Caching) 유효 시간을 기존 5분에서 최대 1시간으로 늘렸다. 긴 시스템 프롬프트나 대용량 컨텍스트를 반복 사용하는 에이전트·RAG 파이프라인에서 캐시 히트율이 크게 높아져 입력 토큰 비용을 최대 90%까지 줄일 수 있다.
anthropicclaudecost-optimization
변경 내용 요약
Anthropic은 Claude API cache_control 파라미터의 기본 TTL을 300초(5분)에서 3,600초(1시간)로 상향했다. 이는 Claude Haiku 4.5, Claude Sonnet, Claude Opus 계열 모두에 적용되며, 별도 플래그 없이 기존 cache_control: {"type": "ephemeral"} 설정만으로 자동 적용된다. 캐시 히트 시 입력 토큰 비용은 기존 대비 최대 90% 할인이 유지된다.
왜 중요한가—실제 비용 시뮬레이션
| 시나리오 | 기존(TTL 5분) | 변경 후(TTL 1시간) | |---|---|---| | 시스템 프롬프트 10만 토큰, 분당 2회 호출 | 캐시 히트 ~8회 | 캐시 히트 ~118회 | | 시간당 캐시 절감 토큰 | ~640,000 | ~9,440,000 | | 절감 효과(Sonnet 기준, 공식 페이지 참조) | 소폭 | 대폭 상승 |
특히 다중 사용자 RAG 서비스처럼 같은 대규모 컨텍스트를 여러 세션에 걸쳐 재사용하는 구조에서 효과가 두드러진다.
적용 시 주의사항 및 베스트 프랙티스
- 캐시 키 설계: 캐시는
messages배열 앞부분 동일 구간을 기준으로 생성되므로, 고정 시스템 프롬프트·공통 컨텍스트를 앞에 배치하고 사용자 입력을 뒤에 붙이는 구조 권장. - 캐시 무효화 시점: 프롬프트 내 어느 한 바이트라도 바뀌면 캐시가 무효화된다. 동적 날짜·타임스탬프를 시스템 프롬프트에 삽입하는 패턴은 캐시를 깨뜨리므로 지양.
- 모니터링: API 응답 헤더
anthropic-cache-read-input-tokens값을 로깅해 실제 히트율을 추적하면 최적화 포인트를 빠르게 파악할 수 있다. - TTL 연장 요청: 1시간 이상의 TTL이 필요한 엔터프라이즈 워크로드는 Anthropic 영업팀 문의 경로를 통해 별도 협의 가능.
출처: Anthropic API Documentation