📰 AI 뉴스2026-05-134분

Meta, Llama 4 Maverick 함수 호출 기능 정식 GA 전환

Meta가 Llama 4 Maverick의 함수 호출(Function Calling) 및 구조화 출력(Structured Output) 기능을 정식 GA(General Availability)로 전환했다. 기존 실험적 플래그 없이도 OpenAI 호환 툴 스펙 형식을 그대로 사용할 수 있어 오픈소스 에이전트 파이프라인 전환 비용이 낮아진다.

metallamaopen-source

GA 전환으로 달라지는 점

Meta는 2026년 5월 13일 Llama 4 Maverick의 다음 기능을 정식 안정 버전으로 전환했다.

| 기능 | 이전 상태 | GA 이후 | |---|---|---| | 병렬 함수 호출 | 실험적(--enable-tools 플래그 필요) | 기본 활성화 | | JSON 스키마 기반 구조화 출력 | 부분 지원 | 전체 지원 | | OpenAI tools 파라미터 호환 | 비공식 | 공식 문서화 | | 스트리밍 중 툴 호출 청크 | 미지원 | 지원 |

컨텍스트 윈도우는 기존과 동일하게 128K 토큰 유지.

로컬·셀프호스팅 환경 설정 방법

Hugging Face transformers 또는 llama.cpp 최신 빌드에서 즉시 사용 가능하다.

from transformers import pipeline
import json

pipe = pipeline("text-generation", model="meta-llama/Llama-4-Maverick-17B-128E-Instruct")

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "도시 이름으로 현재 날씨 조회",
            "parameters": {
                "type": "object",
                "properties": {"city": {"type": "string"}},
                "required": ["city"]
            }
        }
    }
]

result = pipe(
    [{"role": "user", "content": "서울 날씨 알려줘"}],
    tools=tools,
    max_new_tokens=256
)
print(json.loads(result[0]["generated_text"][-1]["content"]))

VRAM 요구사항: BF16 풀 정밀도 기준 약 38GB (A100 40GB 단일 가능)
Q4_K_M 양자화 시 약 12GB — RTX 3090/4090 로컬 구동 가능

한국 개발자 활용 포인트

OpenAI → Llama 4 마이그레이션 간소화: tools 파라미터 구조가 OpenAI API 스펙과 호환되므로 에이전트 프레임워크(LangGraph, smolagents 등) 코드를 최소 수정으로 전환할 수 있다.
온프레미스 데이터 처리: 금융·의료 등 데이터 외부 전송이 제한된 환경에서 함수 호출 기반 에이전트를 완전 내부망으로 구성 가능.
비용: 모델 가중치 자체는 Llama 4 커뮤니티 라이선스 하에 무료. 클라우드 API 사용 시 요금은 각 제공사 공식 페이지 참조.

출처: Meta AI Official Blog

← 이전

Google, 터미널용 Gemini CLI 정식 출시—로컬 코드베이스 직접 질의

Anthropic, Claude Haiku 4.5 실시간 API 응답 속도 대폭 개선