📰 AI 뉴스2026-06-144분

Anthropic, Claude Opus 4 확장 사고 API 정식 공개—복잡한 추론 태스크 직접 통합

Anthropic이 Claude Opus 4의 확장 사고(Extended Thinking) 기능을 Messages API를 통해 정식으로 외부 개발자에게 공개했다. 사고 토큰 예산(thinking budget)을 직접 설정할 수 있어 수학·코드 검증·다단계 계획 수립 등 고난이도 태스크에 투입 비용과 응답 품질을 개발자가 직접 조율할 수 있다. 기존 프롬프트 엔지니어링만으로 한계를 느끼던 복잡한 비즈니스 로직 자동화 작업에 바로 적용 가능하다는 점에서 실무 활용 범위가 크게 넓어진다.

anthropicllmapi

확장 사고란 무엇인가

확장 사고(Extended Thinking)는 Claude Opus 4가 최종 응답을 생성하기 전에 내부적으로 단계별 추론 체인을 전개하는 메커니즘이다. 개발자는 API 요청 시 thinking 파라미터 블록에 budget_tokens 값을 지정해 모델이 추론에 사용할 최대 토큰 수를 제한하거나 늘릴 수 있다. 최솟값은 1,024 토큰이며 상한은 모델 컨텍스트 윈도우 한도까지 설정 가능하다.

요금 및 성능 지표

사고 토큰은 출력 토큰과 동일한 단가로 과금된다. Claude Opus 4 기준 입력 토큰과 출력(사고 포함) 토큰 가격은 공식 페이지 참조. Anthropic 내부 벤치마크에 따르면 확장 사고를 활성화했을 때 AIME 수학 경시 문제 정답률이 비활성 상태 대비 약 23%p 향상됐으며, 멀티스텝 코드 디버깅 태스크에서도 유의미한 성능 개선이 확인됐다. 단, 사고 토큰이 늘어날수록 전체 레이턴시도 증가하므로 실시간 응답이 중요한 서비스에는 budget_tokens를 보수적으로 설정하는 것을 권장한다.

한국 개발자 적용 포인트

법률·계약서 분석 파이프라인: 다단계 조건 검토가 필요한 계약서 자동 리뷰에 budget_tokens: 8000 수준을 권장한다.
알고리즘 문제 자동 채점: 교육 플랫폼에서 풀이 과정의 논리적 오류를 탐지할 때 사고 과정을 스트리밍으로 노출해 학습자 피드백으로 활용 가능하다.
스트리밍 지원: stream: true와 함께 사용하면 사고 블록과 최종 응답 블록이 순차적으로 전달되어 UI에서 로딩 진행 상황을 실시간으로 표시할 수 있다.
주의사항: 사고 블록 내용은 사용자에게 그대로 노출하지 않도록 Anthropic 사용 정책에서 명시하고 있으므로, 응답 파싱 시 type: "thinking" 블록을 별도 처리하는 로직이 필요하다.

출처: Anthropic Developer Docs

← 이전

Meta, Llama 4 Scout 멀티모달 파인튜닝 레시피 공식 공개—이미지+텍스트 커스텀 모델 구축 가능

Meta Llama 4 Maverick, OpenRouter 무료 티어 정식 개방—한국 개발자 즉시 사용 가능