Meta, Llama 4 Scout·Maverick 한국어 시스템 프롬프트 공식 벤치마크 공개
Meta가 Llama 4 Scout(17B·16 experts)와 Maverick(17B·128 experts) 두 모델에 대해 한국어 시스템 프롬프트 환경에서의 공식 성능 벤치마크를 공개했다. 영어 대비 한국어 지시 준수율 및 할루시네이션 비율 수치가 포함되어 있어, 한국어 서비스 도입을 검토하는 개발팀의 모델 선택 근거로 활용할 수 있다.
공개된 벤치마크 개요
Meta는 2026년 5월 19일 Llama 4 공식 블로그를 통해 한국어 지시 따르기(Instruction Following) 전용 내부 평가 결과를 공개했다. 평가 데이터셋은 2,400건의 한국어 단일 턴 과제와 800건의 멀티 턴 대화로 구성되며, 다음 세 가지 지표를 측정했다.
| 지표 | Scout (17B·16E) | Maverick (17B·128E) | |---|---|---| | 지시 준수율(IFEval-KO) | 74.3% | 81.7% | | 할루시네이션 비율(FActScore-KO) | 18.2% | 12.9% | | 코드 생성 정확도(HumanEval-KO 주석) | 67.1% | 73.4% |
Maverick이 모든 지표에서 Scout을 앞서지만, Scout은 단일 A100 80 GB GPU 한 장에서 4비트 양자화 기준 초당 약 38 토큰 생성이 가능해 온프레미스 저비용 배포에 적합하다고 Meta는 설명했다.
한국어 시스템 프롬프트 권장 패턴
Meta가 함께 공개한 권장 시스템 프롬프트 가이드에 따르면, 한국어 출력 일관성을 높이려면 <|begin_of_text|> 이후 시스템 블록에 언어 고정 지시를 명시하는 것이 효과적이다.
<|begin_of_text|><|start_header_id|>system<|end_header_id|>
당신은 한국어로만 응답하는 전문 코드 리뷰어입니다.
모든 응답은 반드시 한국어로 작성하고, 코드 블록은 영문을 유지하세요.
<|eot_id|>
영어·한국어 혼합 입력(코드 포함 질문)에서 한국어 응답 고정이 깨지는 현상은 Maverick에서 6.1%, Scout에서 11.4% 발생했으며, 위 패턴 적용 시 각각 **1.8%, 3.7%**로 감소했다고 보고했다.
개발자 체크리스트
한국어 서비스를 Llama 4 기반으로 구축할 때 확인해야 할 사항은 다음과 같다.
- 모델 선택: 응답 품질 우선이면 Maverick, 비용·속도 우선이면 Scout
- 컨텍스트 길이: 두 모델 모두 최대 10M 토큰 컨텍스트 지원—장문 문서 요약에 유리
- 상업 이용 라이선스: Llama 4 Community License 조건(MAU 7억 명 초과 시 별도 협의) 재확인 필요
- 양자화 포맷: 공식 GGUF 및 AWQ 체크포인트는 Hugging Face
meta-llama조직 페이지에서 직접 다운로드 가능
전체 벤치마크 데이터셋과 평가 스크립트는 Meta의 llama-models GitHub 리포지터리에 함께 공개되었다.