📰 AI 뉴스2026-05-104분

Meta Llama 4 Scout, 로컬 추론 공식 지원—RTX 4090 단일 GPU 구동 확인

Meta가 Llama 4 Scout(17B 활성 파라미터, 109B MoE)의 로컬 추론 최적화 가이드와 GGUF 공식 퀀트 파일을 공개했다. RTX 4090(24GB VRAM) 단일 GPU에서 Q4_K_M 기준 초당 28토큰 생성이 확인되어, 클라우드 비용 없이 고성능 멀티모달 모델을 온프레미스로 운용하려는 한국 개발자·기업에 실질적 선택지가 생겼다.

llamalocal-inferenceopen-source

무엇이 달라졌나

Meta는 2026년 5월 10일 Llama 4 Scout의 공식 GGUF 퀀트 파일을 Hugging Face meta-llama/Llama-4-Scout-17B-16E-GGUF 저장소에 릴리스했다. 기존에는 커뮤니티가 비공식으로 변환한 파일에 의존해야 했으나, 이번 공식 배포로 무결성 검증(SHA-256 해시 동봉)과 라이선스 명확화가 함께 이뤄졌다.

지원 퀀트 레벨은 다음과 같다.

| 퀀트 | 모델 크기 | 권장 VRAM | |---|---|---| | Q8_0 | 약 18.5 GB | 24 GB 이상 | | Q4_K_M | 약 10.7 GB | 12 GB 이상 | | Q3_K_S | 약 8.2 GB | 10 GB 이상 |

llama.cpp b3700 이상 빌드에서 바로 로드 가능하며, Ollama 0.6.x 태그(ollama run llama4-scout:q4_km)로도 즉시 실행된다.

성능 벤치마크—RTX 4090 기준

Meta 공식 문서에 포함된 참고 수치(Ubuntu 24.04, CUDA 12.8, llama.cpp):

Q4_K_M: 프리필 속도 약 1,200 토큰/초, 생성 속도 약 28 토큰/초
Q8_0: 프리필 약 820 토큰/초, 생성 약 19 토큰/초
컨텍스트 창: 최대 10M 토큰 지원(실제 로컬 운용 시 VRAM에 따라 제한)
멀티모달(이미지 입력)은 Q4_K_M에서 추가 약 2 GB VRAM 소요

A100 80GB 환경에서는 Q8_0 기준 생성 속도 약 54 토큰/초로 올라간다.

한국 개발자 실전 적용 포인트

1. 설치 빠른 시작 (Ollama)

# Ollama 최신 버전 확인 후
ollama pull llama4-scout:q4_km
ollama run llama4-scout:q4_km

2. 비용 절감 시나리오 월 API 호출량이 많은 팀이라면 클라우드 추론 비용 대비 GPU 서버 상각 비용을 비교해 볼 필요가 있다. 공식 API 가격은 공식 페이지 참조.

3. 라이선스 Llama 4 커뮤니티 라이선스 하에 MAU 7억 미만 서비스는 상업적 사용 가능. 한국 SaaS·스타트업 대부분이 해당 범위 내에 들어온다.

4. 주의사항

Windows 환경에서는 llama.cpp 윈도우 빌드(llama-b3700-bin-win-cuda-cu12.8-x64) 필요
멀티모달 사용 시 llava 플래그 별도 활성화 필요(공식 문서 참조)
10M 컨텍스트 풀 활용은 A100 80GB × 2 이상 권장

출처: Meta AI Blog / Hugging Face meta-llama 공식 저장소

← 이전

OpenAI Realtime API, WebRTC 방식 정식 GA 전환

Mistral, Codestral 2 출시—코드 컨텍스트 256K·FIM 강화