Anthropic, Claude Haiku 4.5 배치 API 정식 GA—대용량 비동기 처리 비용 50% 절감
Anthropic이 Claude Haiku 4.5를 대상으로 한 Message Batches API를 정식 GA로 전환했다. 최대 10만 건의 요청을 단일 배치로 제출해 비동기 처리할 수 있으며, 동기 API 대비 비용이 50% 저렴해 대규모 데이터 파이프라인을 운영하는 개발자에게 실질적 원가 절감 수단이 된다.
배치 API란 무엇이고 무엇이 달라졌나
Message Batches API는 여러 독립적인 요청을 하나의 배치 잡으로 묶어 제출하면 Anthropic 측이 유휴 컴퓨팅 자원을 활용해 비동기로 처리하는 방식이다. 기존 베타 기간 동안 Claude 3 계열에만 제한적으로 지원됐으나, 이번 GA와 함께 Claude Haiku 4.5가 공식 지원 모델로 추가됐다. 처리 완료 보장 시간은 최대 24시간이며, 결과는 JSONL 형식으로 다운로드하거나 웹훅으로 수신할 수 있다.
핵심 스펙과 가격
| 항목 | 값 | |------|----| | 배치당 최대 요청 수 | 100,000건 | | 최대 처리 대기 시간 | 24시간 | | 요청당 최대 토큰 | 동기 API와 동일 | | 가격 | 동기 API 대비 50% 할인 (공식 페이지 참조) |
할인율은 입력·출력 토큰 모두에 동일하게 적용된다. Haiku 4.5는 이미 Anthropic 라인업 중 가장 저렴한 티어이므로, 배치 할인까지 적용하면 고빈도 분류·요약·임베딩 전처리 작업의 단가를 크게 낮출 수 있다.
한국 개발자 활용 시나리오
콘텐츠 파이프라인 — 쇼핑몰 상품 설명 수십만 건을 야간 배치로 번역·태깅하는 워크플로에 적합하다. 실시간 응답이 필요 없는 작업이라면 동기 호출을 배치로 전환하는 것만으로 월 클라우드 비용을 즉시 절반으로 줄일 수 있다.
데이터셋 레이블링 — 파인튜닝용 학습 데이터를 생성하거나 기존 데이터를 검수할 때, 배치 API를 쓰면 레이트 리밋 충돌 없이 안정적으로 대량 요청을 처리할 수 있다.
비용 관리 팁 — 배치 잡 제출 후 retrieve 엔드포인트로 상태를 폴링하거나 웹훅을 등록해 완료 시 알림을 받을 수 있다. 처리 도중 취소하면 미처리 요청은 과금되지 않으므로, 테스트 단계에서 소규모 배치로 품질을 확인한 뒤 풀 배치를 실행하는 전략을 권장한다.