📰 AI 뉴스2026-06-104분

Meta Llama 4 Maverick GGUF 공식 배포—Ollama·llama.cpp 즉시 로컬 실행

Meta가 Llama 4 Maverick 모델의 GGUF 포맷 공식 가중치를 Hugging Face에 공개했다. Q4_K_M 양자화 기준 약 24GB로, RTX 4090 단일 GPU 또는 M2 Max MacBook Pro에서 추론이 가능하다. Ollama와 llama.cpp 최신 버전에서 즉시 `ollama pull llama4:maverick` 한 줄로 실행할 수 있어 국내 로컬 AI 개발 환경이 한 단계 넓어질 것으로 보인다.

metallamaopensource

공개된 가중치 스펙

Meta가 이번에 공개한 Llama 4 Maverick GGUF는 다음 양자화 옵션을 포함한다.

| 양자화 | 파일 크기(약) | 권장 VRAM | |---|---|---| | Q8_0 | 약 46GB | 48GB+ | | Q4_K_M | 약 24GB | 24GB (RTX 4090 / A10G) | | Q3_K_S | 약 18GB | 20GB | | IQ2_XXS | 약 11GB | 12GB (RTX 3060) |

컨텍스트 윈도우는 최대 1M 토큰이지만, 로컬 실행 시 메모리 한계로 실용 범위는 128K~256K 수준이다.

Ollama·llama.cpp 연동 방법

# Ollama (v0.5.0 이상 필요)
ollama pull llama4:maverick-q4
ollama run llama4:maverick-q4

# llama.cpp (최신 빌드)
./llama-cli -m llama4-maverick-q4_k_m.gguf \
  -c 32768 -n 512 --temp 0.7

llama.cpp는 CUDA, Metal, Vulkan 백엔드 모두 지원하므로 Windows(RTX 계열), macOS(Apple Silicon), Linux(서버 GPU) 환경에서 추가 설정 없이 가속된다.

한국 크리에이터·개발자에게 중요한 이유

Llama 4 Maverick은 비전 입력(이미지+텍스트 멀티모달)을 지원하며, 이번 GGUF 배포에는 비전 프로젝션 가중치도 포함됐다. 로컬에서 이미지 캡셔닝, 문서 OCR 후처리, 코드 스크린샷 분석 등의 파이프라인을 API 비용 없이 구축할 수 있다. 상업적 이용은 Llama 4 커뮤니티 라이선스 조건(MAU 7억 명 미만 무료, 초과 시 Meta 별도 협의) 하에 허용된다. 국내 스타트업 기준 사실상 대부분의 서비스 규모에서 무료 상업 활용이 가능하다.

출처: Meta AI Blog / Hugging Face Model Hub

← 이전

Google DeepMind, Veo 3 동영상 생성 API 정식 GA—크리에이터 워크플로 직접 통합 가능

OpenAI, Realtime API WebRTC 모드 정식 GA—브라우저 직접 음성 통화 구현