Meta, Llama 4 Scout 4-bit 공식 양자화 가중치 공개—소비자 GPU 대응
Meta가 Llama 4 Scout의 4-bit GPTQ 및 AWQ 공식 양자화 가중치를 Hugging Face에 공개했다. RTX 4090 단일 GPU(24 GB VRAM)에서 전체 컨텍스트 10만 토큰 추론이 가능해져, 클라우드 없이 로컬에서 대규모 멀티모달 모델을 운영하려는 개발자·크리에이터에게 실질적 선택지가 생겼다.
공개된 가중치 종류
Meta가 이번에 공개한 것은 Llama 4 Scout(17B 활성 파라미터, 109B 전체 MoE) 기반의 두 가지 공식 양자화 포맷이다.
| 포맷 | 비트 | 대략적 VRAM 요구량 | 권장 GPU | |------|------|--------------------|----------| | GPTQ 4-bit | 4 | ~14 GB | RTX 4080 / RTX 4090 | | AWQ 4-bit | 4 | ~13.5 GB | RTX 4080 / RTX 4090 | | 원본 BF16 | 16 | ~220 GB | A100 8× 이상 |
공식 양자화본은 Meta 내부 평가 기준 MMLU 기준 BF16 대비 정확도 손실 0.8% 이내로 보고됐다. 커뮤니티 비공식 양자화와 달리, 공식 가중치는 라이선스 조건(Llama 4 Community License)을 동일하게 적용받는다.
로컬 추론 설정 예시
Hugging Face Transformers + 최신 auto-gptq·autoawq 라이브러리를 사용한 기본 로드 방법은 공식 Model Card에 포함된 코드 스니펫을 참조한다. llama.cpp GGUF 변환본은 Meta 공식 배포가 아니므로 별도 확인이 필요하다.
# 설치 예시 (공식 문서 기준)
pip install transformers autoawq
# 모델 로드는 공식 Hugging Face 페이지 코드 스니펫 참조
한국 개발자·크리에이터 관점
활용 가능 시나리오
- 개인 RAG 파이프라인: 10만 토큰 컨텍스트를 단일 GPU로 처리할 수 있어, 대용량 문서 기반 Q&A 로컬 구축 비용이 크게 낮아진다.
- 멀티모달 콘텐츠 분석: Scout의 이미지·텍스트 혼합 입력 지원을 로컬에서 실험할 수 있어, 크리에이터 도구 프로토타이핑에 유리하다.
- 데이터 보안 요구 환경: 의료·금융 등 외부 API 사용이 제한된 환경에서 온프레미스 배포 선택지로 활용 가능.
주의 사항: 양자화 모델의 상업적 사용은 Llama 4 Community License 조건(월간 활성 사용자 7억 명 초과 시 별도 협의 필요)을 먼저 확인해야 한다. 요금 정보는 공식 페이지 참조.