📰 AI 뉴스2026-04-165분
Prompt Caching, 전체 모델 GA — 반복 호출 비용 최대 90% 절감
Opus·Sonnet·Haiku 전 라인업에서 Prompt Caching이 정식 출시됐다. 공통 컨텍스트가 긴 워크로드에서 캐시 적중 시 입력 단가가 약 10분의 1로 떨어진다.
anthropic비용최적화caching
무엇인가
Prompt Caching은 여러 요청에서 공통으로 쓰이는 프롬프트 앞부분을 Anthropic 측에 캐싱해두고, 재호출 시 그 부분은 훨씬 싸게 과금하는 기능이다. RAG·에이전트·긴 시스템 프롬프트 워크로드의 단가 구조를 바꿔놓는다.
비용 구조
| 항목 | 단가 |
|---|---|
| 캐시 쓰기 (최초 1회) | 일반 입력 × 1.25 |
| 캐시 읽기 (재호출) | 일반 입력 × 0.1 |
| TTL | 5분 또는 1시간(ephemeral/1h) |
언제 쓰면 이득인가
- 공통 프롬프트가 1,024 토큰 이상
- 5분 내에 2회 이상 재호출 예상
- 공통부와 가변부의 경계가 명확
코드 예 (TypeScript)
await client.messages.create({
model: "claude-sonnet-4-6",
system: [
{
type: "text",
text: LONG_SYSTEM_PROMPT, // 수천~수만 토큰
cache_control: { type: "ephemeral" },
},
],
messages: userMessages,
})
실측 예시
- 시스템 프롬프트 30k + 사용자 입력 500 토큰 × 20회 반복
- 캐시 미사용: 30,500 × 20 × $3/M = $1.83
- 캐시 사용: 30k × $3.75/M (쓰기) + 30k × $0.3/M × 19 (읽기) + 500 × $3/M × 20 = $0.30
- 약 83% 절감
설계 원칙
- 캐시 가능한 모든 것을 프롬프트 앞쪽에 배치
- 사용자별 변수·세션별 데이터는 맨 뒤에
- 공통 컨텍스트 일부만 바뀌어도 캐시 무효화 → 설계 시 명확히 분리
usage.cache_read_input_tokens로 적중률 모니터링
출처: Anthropic Docs