Meta, Llama 4 공식 GGUF 양자화 가이드 공개—로컬 4비트 추론 벤치마크 포함
Meta가 Llama 4 시리즈의 공식 GGUF 변환·양자화 가이드를 Hugging Face와 공동으로 공개했다. Q4_K_M 양자화 기준 Scout 17B 모델이 RTX 4090 단일 GPU(24 GB VRAM)에서 초당 42토큰 이상의 추론 속도를 달성하는 수치가 공식 문서에 포함됐다. 로컬 LLM 환경을 구축하려는 한국 개발자·크리에이터에게 비용 절감과 데이터 프라이버시 측면에서 실질적 대안이 될 전망이다.
공식 양자화 스펙 요약
Meta가 공개한 가이드는 llama.cpp 기반 변환 파이프라인을 중심으로 정리됐다. 주요 수치는 다음과 같다.
| 모델 | 양자화 | VRAM 사용량 | 속도(RTX 4090) | |---|---|---|---| | Llama 4 Scout 17B | Q4_K_M | ~12 GB | 42 tok/s | | Llama 4 Scout 17B | Q8_0 | ~19 GB | 28 tok/s | | Llama 4 Maverick 400B | Q2_K | ~48 GB (2×A100) | 11 tok/s |
Q4_K_M이 품질 대비 메모리 효율 균형이 가장 우수하다고 공식 문서는 권장한다.
변환 워크플로우
공식 가이드는 세 단계로 구성된다.
- Hugging Face 가중치 다운로드:
huggingface-cli download meta-llama/Llama-4-Scout-17B-Instruct - GGUF 변환: llama.cpp의
convert_hf_to_gguf.py스크립트 사용. Llama 4의 Mixture-of-Experts 아키텍처 지원을 위해 llama.cpp r1820 이상 버전 필요. - 양자화 적용:
llama-quantize ./model.gguf ./model-q4km.gguf Q4_K_M
전체 변환 시간은 A100 기준 Scout 17B에서 약 18분 소요된다.
한국어 성능 및 크리에이터 활용
공식 가이드에 포함된 한국어 벤치마크(KoMT-Bench 기준)에서 Llama 4 Scout Q4_K_M은 전체 정밀도(FP16) 대비 1.3점 하락에 그쳐 양자화 품질 손실이 최소 수준임이 확인됐다.
크리에이터 활용 포인트:
- 자막 자동 생성·영상 스크립트 초안 작성을 외부 API 호출 없이 로컬에서 처리 가능해 콘텐츠 유출 우려를 해소할 수 있다.
- Ollama 0.6 이상에서 GGUF 파일을 직접
ollama create명령으로 등록해 Open WebUI와 즉시 연동할 수 있다. - 월 API 비용을 RTX 4090 전력 비용(약 350W 풀로드 기준 kWh 단가 적용)으로 대체할 경우 월 100만 토큰 이상 사용 시 로컬 운영이 경제적으로 유리해지는 손익분기점이 형성된다.
공식 가이드 전문과 변환 스크립트는 Meta의 Llama GitHub 저장소 docs/quantization.md에서 확인할 수 있다.