📰 AI 뉴스2026-06-145분

Meta, Llama 4 Scout 멀티모달 파인튜닝 레시피 공식 공개—이미지+텍스트 커스텀 모델 구축 가능

Meta가 Llama 4 Scout(17B 활성 파라미터, MoE 구조)에 대한 멀티모달 지도 파인튜닝(SFT) 레시피와 예제 데이터셋을 공식 GitHub 리포지터리에 공개했다. 텍스트 전용 파인튜닝과 달리 이미지-텍스트 쌍 데이터를 활용해 도메인 특화 시각 이해 모델을 누구나 직접 학습시킬 수 있게 됐다. 클라우드 GPU 비용을 최소화하는 LoRA 기반 학습 스크립트도 함께 제공되어 스타트업과 1인 개발자도 실질적으로 활용 가능한 수준이다.

metaopen-sourcemultimodal

공개된 레시피의 구성

Meta가 공개한 파인튜닝 패키지는 크게 세 가지 요소로 이루어져 있다. 첫째, llama-recipes 리포지터리에 추가된 multimodal_finetuning 예제 디렉터리로, 이미지 캡셔닝·VQA·문서 이해 세 가지 태스크 유형별 학습 스크립트가 포함된다. 둘째, Hugging Face Datasets 형식의 샘플 데이터셋(이미지-텍스트 쌍 약 5,000건)이 함께 제공된다. 셋째, torchtune 기반의 LoRA 설정 파일로, 어댑터 랭크(rank)·알파(alpha) 값이 검증된 기본값으로 설정되어 있어 별도 하이퍼파라미터 탐색 없이 바로 시작할 수 있다.

하드웨어 요구사항 및 비용 추정

LoRA 방식으로 Scout를 파인튜닝할 경우 bfloat16 기준 A100 80GB GPU 2장으로 배치 사이즈 4에서 학습이 가능하다. 에포크당 약 1~2시간 소요되며, 주요 클라우드 공급자의 A100 온디맨드 요금 기준으로 1,000건 데이터셋 3에포크 학습 비용은 대략 $15~30 수준으로 추산된다(실제 비용은 인스턴스 유형·리전에 따라 상이하므로 공식 페이지 참조). 8-bit 양자화(bitsandbytes) 옵션을 활성화하면 단일 A100 또는 RTX 4090에서도 실행 가능하다.

한국 개발자·크리에이터 활용 시나리오

커머스 상품 이미지 자동 태깅: 자사 카테고리 체계에 맞춘 분류 레이블로 파인튜닝해 상품 등록 자동화에 적용할 수 있다.
K-문서 OCR 후처리: 영수증·계약서 이미지에서 구조화된 JSON을 추출하는 모델을 도메인 데이터로 직접 학습 가능하다.
크리에이터 썸네일 분석: 유튜브·틱톡 썸네일 이미지의 클릭률 요소를 분석하는 전용 분류기를 소량 데이터로 빠르게 구축할 수 있다.
라이선스 확인: Llama 4는 Meta Community License를 따르며, 월간 활성 사용자 7억 명 초과 서비스는 별도 상업 라이선스 협의가 필요하다. 대부분의 한국 스타트업은 해당 제한에 해당하지 않는다.

출처: Meta AI GitHub (llama-recipes)

← 이전

OpenAI, GPT-4o 비전 파인튜닝 정식 GA—이미지 입력 커스텀 모델 API 공개

Anthropic, Claude Opus 4 확장 사고 API 정식 공개—복잡한 추론 태스크 직접 통합