k
korAI
AI 뉴스 전체
📰 AI 뉴스2026-06-034분

Claude Sonnet 4.6, 200K 컨텍스트 스트리밍 응답 정식 지원

Anthropic이 Claude Sonnet 4.6에 200K 토큰 전체 구간에서 스트리밍 응답을 안정적으로 유지하는 기능을 정식 GA로 전환했다. 대용량 코드베이스·문서를 단일 요청으로 처리하면서도 첫 토큰 응답 시간(TTFT)이 기존 대비 약 30% 단축되어 실시간 UX가 크게 개선된다.

anthropicclaudestreaming

무엇이 바뀌었나

기존 Claude Sonnet 4.6는 컨텍스트가 100K 토큰을 넘어가면 스트리밍 청크 간격이 불규칙해지는 문제가 보고됐다. 이번 GA 업데이트에서 Anthropic은 내부 KV 캐시 스케줄링을 개선해 200K 토큰 전 구간에서 균일한 스트리밍 청크 전송을 보장한다고 밝혔다. 첫 토큰까지 걸리는 시간(TTFT)은 100K+ 입력 기준 평균 30% 감소가 측정됐다.

한국 개발자 실전 활용 시나리오

  • 대형 모노레포 리뷰: 수만 줄 규모의 TypeScript·Java 프로젝트를 단일 프롬프트에 넣고 아키텍처 리뷰 보고서를 스트리밍으로 수신
  • 법률·계약 문서 분석 SaaS: 한국어 계약서 수백 페이지를 한 번에 업로드해 조항별 리스크를 실시간으로 출력
  • RAG 없는 전문서 Q&A: 기술 매뉴얼·API 문서 전체를 컨텍스트에 올려 검색 파이프라인 없이 정확한 답변 생성
import anthropic

client = anthropic.Anthropic()

with client.messages.stream(
    model="claude-sonnet-4-6",
    max_tokens=4096,
    messages=[{"role": "user", "content": large_codebase_prompt}],
) as stream:
    for text in stream.text_stream:
        print(text, end="", flush=True)

가격 및 제한 사항

  • 입력·출력 토큰 단가: 공식 페이지 참조
  • 프롬프트 캐시 적용 가능 구간: 전체 200K 중 캐시 히트 시 입력 비용 절감
  • 단일 요청 최대 출력: 8,192 토큰(기존과 동일)
  • 분당 요청 수(RPM) 한도는 API 티어별 상이하므로 Anthropic 콘솔에서 확인 필요
출처: Anthropic 공식 문서