Meta Llama 4 Scout, 로컬 실행 최적화 업데이트—10M 토큰 컨텍스트
Meta가 Llama 4 Scout의 양자화 최적화 버전을 공개해 RTX 4090 단일 GPU에서도 전체 컨텍스트를 활용할 수 있게 됐다. 10M 토큰 컨텍스트 윈도우를 유지하면서 VRAM 사용량을 기존 대비 약 40% 절감했다. 크리에이터와 1인 개발자가 클라우드 비용 없이 대용량 문서·코드베이스를 처리할 수 있는 실질적 옵션이 생겼다.
업데이트 핵심 변경사항
Meta는 Llama 4 Scout에 INT4 그룹 양자화(Group-wise Quantization)를 공식 적용한 가중치를 Hugging Face에 공개했다. 파라미터 수는 109B(활성 파라미터 17B MoE 구조)를 유지하면서, 24GB VRAM 환경에서 최대 10M 토큰 컨텍스트를 실험적으로 지원한다. 풀 프리시전(BF16) 대비 추론 속도는 약 1.8배 향상됐다.
스펙 및 요구사항
| 구성 | 최소 VRAM | 최대 컨텍스트 | |------|-----------|---------------| | INT4 양자화 | 24GB (RTX 4090 1장) | 10M 토큰 | | BF16 풀 프리시전 | 80GB×2 | 10M 토큰 | | INT4 경량 (8B 증류) | 8GB | 128K 토큰 |
라이선스는 Llama 4 Community License를 따르며, 월간 활성 사용자 7억 명 초과 서비스는 별도 상업 계약이 필요하다.
한국 크리에이터·개발자 적용 사례
영상 스크립트 전체(평균 50K~200K 자)를 한 번에 넣고 다국어 편집 방향을 제안받거나, 대형 레거시 코드베이스를 통째로 컨텍스트에 올려 리팩터링 계획을 생성하는 워크플로가 현실적으로 가능해졌다. ollama pull llama4-scout:int4 명령 한 줄로 로컬 실행 환경을 구성할 수 있으며, LM Studio GUI도 동일 가중치를 지원한다.