📰 AI 뉴스2026-05-134분
Meta, Llama 4 Maverick 함수 호출 기능 정식 GA 전환
Meta가 Llama 4 Maverick의 함수 호출(Function Calling) 및 구조화 출력(Structured Output) 기능을 정식 GA(General Availability)로 전환했다. 기존 실험적 플래그 없이도 OpenAI 호환 툴 스펙 형식을 그대로 사용할 수 있어 오픈소스 에이전트 파이프라인 전환 비용이 낮아진다.
metallamaopen-source
GA 전환으로 달라지는 점
Meta는 2026년 5월 13일 Llama 4 Maverick의 다음 기능을 정식 안정 버전으로 전환했다.
| 기능 | 이전 상태 | GA 이후 |
|---|---|---|
| 병렬 함수 호출 | 실험적(--enable-tools 플래그 필요) | 기본 활성화 |
| JSON 스키마 기반 구조화 출력 | 부분 지원 | 전체 지원 |
| OpenAI tools 파라미터 호환 | 비공식 | 공식 문서화 |
| 스트리밍 중 툴 호출 청크 | 미지원 | 지원 |
컨텍스트 윈도우는 기존과 동일하게 128K 토큰 유지.
로컬·셀프호스팅 환경 설정 방법
Hugging Face transformers 또는 llama.cpp 최신 빌드에서 즉시 사용 가능하다.
from transformers import pipeline
import json
pipe = pipeline("text-generation", model="meta-llama/Llama-4-Maverick-17B-128E-Instruct")
tools = [
{
"type": "function",
"function": {
"name": "get_weather",
"description": "도시 이름으로 현재 날씨 조회",
"parameters": {
"type": "object",
"properties": {"city": {"type": "string"}},
"required": ["city"]
}
}
}
]
result = pipe(
[{"role": "user", "content": "서울 날씨 알려줘"}],
tools=tools,
max_new_tokens=256
)
print(json.loads(result[0]["generated_text"][-1]["content"]))
- VRAM 요구사항: BF16 풀 정밀도 기준 약 38GB (A100 40GB 단일 가능)
- Q4_K_M 양자화 시 약 12GB — RTX 3090/4090 로컬 구동 가능
한국 개발자 활용 포인트
- OpenAI → Llama 4 마이그레이션 간소화:
tools파라미터 구조가 OpenAI API 스펙과 호환되므로 에이전트 프레임워크(LangGraph, smolagents 등) 코드를 최소 수정으로 전환할 수 있다. - 온프레미스 데이터 처리: 금융·의료 등 데이터 외부 전송이 제한된 환경에서 함수 호출 기반 에이전트를 완전 내부망으로 구성 가능.
- 비용: 모델 가중치 자체는 Llama 4 커뮤니티 라이선스 하에 무료. 클라우드 API 사용 시 요금은 각 제공사 공식 페이지 참조.
출처: Meta AI Official Blog