Meta, Llama 4 공식 파인튜닝 레시피 공개—한국어 데이터셋 가이드 포함
Meta가 Llama 4 Scout·Maverick 모델의 공식 파인튜닝 레시피와 함께 다국어 데이터 전처리 가이드를 GitHub에 공개했다. 특히 한국어·일본어·아랍어 등 비라틴 계열 언어에 대한 토크나이저 최적화 팁과 LoRA 하이퍼파라미터 권장값이 명시돼, 한국어 특화 모델 제작 진입 장벽이 낮아질 전망이다.
공식 파인튜닝 레시피 구성
Meta는 llama-recipes 저장소에 llama4-finetuning 브랜치를 머지하며 다음 구성 요소를 일괄 공개했다.
- LoRA / QLoRA 설정 파일: Scout(17B 활성 파라미터) 기준
r=16, alpha=32, dropout=0.05권장 - FSDP2 + 4비트 양자화 조합으로 A100 80GB 2장 환경에서 Scout 파인튜닝 가능
- 한국어 데이터 전처리 노트북: BPE 토크나이저에서 한글 자소 분리 오류를 방지하는 정규화 함수 예시 포함
- Maverick(400B MoE) 파인튜닝은 8×H100 이상 권장, QLoRA 적용 시 4×H100으로 축소 가능
한국어 특화 포인트
공개된 가이드에 따르면 Llama 4의 토크나이저는 한국어 어절 단위 인코딩 효율이 Llama 3 대비 약 18% 향상됐다. 전처리 시 unicode_normalization='NFC' 설정과 조사·어미 분리를 최소화하는 형태소 보존 토크나이징 전략을 권장한다. 커스텀 한국어 instruction 데이터셋을 구성할 때는 <|system|>, <|user|>, <|assistant|> 스페셜 토큰 형식을 그대로 유지해야 채팅 템플릿과 호환된다.
로컬 및 클라우드 실행 환경
| 모델 | 최소 VRAM(QLoRA) | 권장 프레임워크 | 예상 학습 속도(1K 스텝) | |---|---|---|---| | Scout 17B | 2×A100 40GB | TorchTune / Axolotl | 약 25분 | | Maverick 400B | 4×H100 80GB | FSDP2 + DeepSpeed | 약 3시간 |
국내 클라우드(NCP, KT Cloud)의 GPU 인스턴스 활용 시 스팟 인스턴스로 Scout 파인튜닝 비용을 회당 3~5만 원 수준으로 낮출 수 있다는 커뮤니티 벤치마크도 함께 공유됐다. 정식 라이선스는 Llama 4 Community License를 따르며 월간 활성 사용자 7억 명 초과 서비스는 별도 상업 계약이 필요하다.