k
korAI
AI 뉴스 전체
📰 AI 뉴스2026-06-174분

Anthropic, 프롬프트 캐시 TTL 5분→1시간으로 확장—반복 호출 비용 대폭 절감

Anthropic이 Claude API의 프롬프트 캐싱(Prompt Caching) 유효 시간을 기존 5분에서 최대 1시간으로 늘렸다. 긴 시스템 프롬프트나 대용량 컨텍스트를 반복 사용하는 에이전트·RAG 파이프라인에서 캐시 히트율이 크게 높아져 입력 토큰 비용을 최대 90%까지 줄일 수 있다.

anthropicclaudecost-optimization

변경 내용 요약

Anthropic은 Claude API cache_control 파라미터의 기본 TTL을 300초(5분)에서 3,600초(1시간)로 상향했다. 이는 Claude Haiku 4.5, Claude Sonnet, Claude Opus 계열 모두에 적용되며, 별도 플래그 없이 기존 cache_control: {"type": "ephemeral"} 설정만으로 자동 적용된다. 캐시 히트 시 입력 토큰 비용은 기존 대비 최대 90% 할인이 유지된다.

왜 중요한가—실제 비용 시뮬레이션

| 시나리오 | 기존(TTL 5분) | 변경 후(TTL 1시간) | |---|---|---| | 시스템 프롬프트 10만 토큰, 분당 2회 호출 | 캐시 히트 ~8회 | 캐시 히트 ~118회 | | 시간당 캐시 절감 토큰 | ~640,000 | ~9,440,000 | | 절감 효과(Sonnet 기준, 공식 페이지 참조) | 소폭 | 대폭 상승 |

특히 다중 사용자 RAG 서비스처럼 같은 대규모 컨텍스트를 여러 세션에 걸쳐 재사용하는 구조에서 효과가 두드러진다.

적용 시 주의사항 및 베스트 프랙티스

  • 캐시 키 설계: 캐시는 messages 배열 앞부분 동일 구간을 기준으로 생성되므로, 고정 시스템 프롬프트·공통 컨텍스트를 앞에 배치하고 사용자 입력을 뒤에 붙이는 구조 권장.
  • 캐시 무효화 시점: 프롬프트 내 어느 한 바이트라도 바뀌면 캐시가 무효화된다. 동적 날짜·타임스탬프를 시스템 프롬프트에 삽입하는 패턴은 캐시를 깨뜨리므로 지양.
  • 모니터링: API 응답 헤더 anthropic-cache-read-input-tokens 값을 로깅해 실제 히트율을 추적하면 최적화 포인트를 빠르게 파악할 수 있다.
  • TTL 연장 요청: 1시간 이상의 TTL이 필요한 엔터프라이즈 워크로드는 Anthropic 영업팀 문의 경로를 통해 별도 협의 가능.
출처: Anthropic API Documentation