📰 AI 뉴스2026-05-054분

Meta Llama 4 Scout, 로컬 실행 최적화 업데이트—10M 토큰 컨텍스트

Meta가 Llama 4 Scout의 양자화 최적화 버전을 공개해 RTX 4090 단일 GPU에서도 전체 컨텍스트를 활용할 수 있게 됐다. 10M 토큰 컨텍스트 윈도우를 유지하면서 VRAM 사용량을 기존 대비 약 40% 절감했다. 크리에이터와 1인 개발자가 클라우드 비용 없이 대용량 문서·코드베이스를 처리할 수 있는 실질적 옵션이 생겼다.

metaopensourcellm

업데이트 핵심 변경사항

Meta는 Llama 4 Scout에 INT4 그룹 양자화(Group-wise Quantization)를 공식 적용한 가중치를 Hugging Face에 공개했다. 파라미터 수는 109B(활성 파라미터 17B MoE 구조)를 유지하면서, 24GB VRAM 환경에서 최대 10M 토큰 컨텍스트를 실험적으로 지원한다. 풀 프리시전(BF16) 대비 추론 속도는 약 1.8배 향상됐다.

스펙 및 요구사항

| 구성 | 최소 VRAM | 최대 컨텍스트 | |------|-----------|---------------| | INT4 양자화 | 24GB (RTX 4090 1장) | 10M 토큰 | | BF16 풀 프리시전 | 80GB×2 | 10M 토큰 | | INT4 경량 (8B 증류) | 8GB | 128K 토큰 |

라이선스는 Llama 4 Community License를 따르며, 월간 활성 사용자 7억 명 초과 서비스는 별도 상업 계약이 필요하다.

한국 크리에이터·개발자 적용 사례

영상 스크립트 전체(평균 50K~200K 자)를 한 번에 넣고 다국어 편집 방향을 제안받거나, 대형 레거시 코드베이스를 통째로 컨텍스트에 올려 리팩터링 계획을 생성하는 워크플로가 현실적으로 가능해졌다. ollama pull llama4-scout:int4 명령 한 줄로 로컬 실행 환경을 구성할 수 있으며, LM Studio GUI도 동일 가중치를 지원한다.

출처: Meta AI 공식 블로그 / Hugging Face 모델 허브

← 이전

Anthropic, Claude Code 정식 출시…터미널 기반 AI 코딩 에이전트 공개