Meta, Llama 4 Maverick 함수 호출 API 정식 GA—멀티턴 툴 체이닝 지원
Meta가 Llama 4 Maverick 모델에 대한 함수 호출(Function Calling) 기능을 정식 GA로 전환하며, 멀티턴 대화 내에서 복수의 툴을 순차·병렬로 체이닝하는 구조를 공식 지원한다. 기존 단일 호출 방식 대비 에이전트 파이프라인 구성이 대폭 단순화되어, 한국 개발자가 자체 호스팅 환경에서 오픈소스 기반 에이전트를 구축하는 데 실질적인 진입 장벽이 낮아질 전망이다.
무엇이 바뀌었나
Meta는 2026년 5월 23일 Llama 4 Maverick의 함수 호출 기능을 정식 GA로 전환했다. 이번 업데이트의 핵심은 멀티턴 툴 체이닝(Multi-turn Tool Chaining) 지원으로, 단일 대화 세션 안에서 최대 16개의 외부 함수를 순차 또는 병렬로 호출하고 각 호출 결과를 다음 단계 입력으로 자동 연결하는 구조가 공식 스펙에 포함됐다. 이전 베타 단계에서는 단일 턴당 1개의 툴 호출만 안정적으로 지원돼 복잡한 에이전트 로직을 구현하려면 별도의 오케스트레이션 레이어가 필수였다.
함수 스키마 형식은 OpenAI 호환 JSON Schema를 그대로 채택해, 기존 OpenAI 함수 호출 코드를 엔드포인트 URL과 모델명만 교체하는 것으로 Llama 4 Maverick으로 마이그레이션할 수 있다.
스펙 및 성능 수치
| 항목 | 수치 | |---|---| | 최대 동시 병렬 툴 호출 수 | 8개 | | 멀티턴 내 누적 툴 호출 한도 | 16회/세션 | | 컨텍스트 윈도우 | 1M 토큰 (기존 동일) | | 함수 스키마 호환 형식 | OpenAI JSON Schema v4 | | 공식 추론 서버 지원 | vLLM 0.8+, TGI 2.4+ |
Meta 내부 벤치마크 기준, 멀티스텝 툴 체이닝 태스크(ToolBench-v2)에서 Maverick이 67.3% 성공률을 기록했다고 밝혔다. 가격은 Meta 공식 페이지 참조.
한국 개발자·크리에이터 실용 포인트
1. 자체 호스팅 에이전트 구축 비용 절감 llama.cpp 또는 vLLM 기반 로컬 서버에서 동일 기능을 구현할 수 있어, API 호출 비용 없이 사내 데이터와 연동하는 에이전트를 운영할 수 있다. 특히 금융·의료 등 데이터 외부 반출이 제한된 업종에서 유리하다.
2. LangChain / LlamaIndex 즉시 연동
LlamaIndex 0.11.3 이상에서 LlamaCPPFunctionCallingAgent 클래스가 Maverick GA 스펙을 공식 지원하며, LangChain의 ChatOpenAI 래퍼를 base_url만 변경해 재사용 가능하다.
3. 크리에이터 워크플로 자동화 영상 편집 메타데이터 추출→자막 생성→SNS 포스트 초안 작성까지 멀티스텝 파이프라인을 단일 모델 호출 세션으로 처리하는 데모가 Meta 공식 GitHub에 공개됐다. 한국어 프롬프트 환경에서도 툴 파라미터 파싱 정확도가 베타 대비 개선됐다는 커뮤니티 보고가 이어지고 있다.