📰 AI 뉴스2026-06-164분

Meta, Llama 4 공식 GGUF 퀀트 배포—로컬 추론 문턱 대폭 낮춰

Meta가 Llama 4 Scout·Maverick 시리즈의 공식 GGUF 양자화 가중치를 Hugging Face Meta 공식 계정을 통해 배포했다. Q4_K_M 기준 Scout 17B 활성 파라미터 모델이 VRAM 12GB 환경에서 구동되며, 서드파티 변환 없이 llama.cpp·Ollama에서 즉시 사용할 수 있어 온프레미스·엣지 배포 수요를 정면으로 겨냥했다.

metallamaopen-source

공식 배포의 의미

그동안 Llama 4 GGUF 파일은 커뮤니티 기여자(bartowski 등)가 변환·배포해왔다. 공식 가중치가 아닌 탓에 라이선스 해석 모호성과 변환 오류 리스크가 존재했다. 이번 Meta 공식 배포로 라이선스 귀속이 명확해지고, 변환 과정 없이 Meta가 직접 검증한 파일을 사용할 수 있게 됐다.

지원 양자화 레벨 및 요구 사양

| 모델 | 양자화 | 파일 크기 | 권장 VRAM | |---|---|---|---| | Scout 17B-A3B | Q4_K_M | 약 9.8 GB | 12 GB | | Scout 17B-A3B | Q8_0 | 약 18.2 GB | 24 GB | | Maverick 17B-A2B | Q4_K_M | 약 10.1 GB | 12 GB | | Maverick 17B-A2B | Q6_K | 약 13.4 GB | 16 GB |

RTX 3060 12GB·RTX 4070 12GB 등 소비자 GPU에서 Scout Q4_K_M 구동이 검증됐다. Apple Silicon M3 Pro(18GB 통합 메모리)에서도 Metal 백엔드로 동작한다.

한국 개발자 실무 활용법

Ollama 원라인 설치: ollama pull meta/llama4-scout:q4_k_m 형태로 공식 태그가 Ollama 레지스트리에 등록됐다. 기존 커뮤니티 태그와 혼용 시 체크섬 충돌에 주의해야 한다.
llama.cpp 서버 모드: llama-server --model llama4-scout-q4_k_m.gguf --ctx-size 131072 --n-gpu-layers 99 옵션으로 OpenAI 호환 엔드포인트를 로컬에 띄울 수 있다. 컨텍스트 윈도우 최대 128K 토큰을 공식 지원한다.
데이터 프라이버시: 사내 코드·문서를 외부 API로 보내기 어려운 금융·의료·공공 프로젝트에서 온프레미스 LLM 옵션이 공식 지원 경로로 자리잡혔다.
Hugging Face 다운로드: meta-llama/Llama-4-Scout-17B-16E-GGUF 리포지토리에서 접근 신청(Gated Model) 후 즉시 다운로드 가능하다.

출처: Meta AI Blog / Hugging Face meta-llama

← 이전

GitHub Copilot Workspace, 정식 GA—이슈→PR 전 과정 자동화

Google DeepMind, Veo 3 영상 생성 API 정식 GA—개발자 직접 통합 가능