k
korAI
AI 뉴스 전체
📰 AI 뉴스2026-05-245분

OpenAI, GPT-4o 비전 파인튜닝 정식 GA—이미지·텍스트 혼합 학습 지원

OpenAI가 GPT-4o의 비전 파인튜닝(Vision Fine-Tuning)을 정식 GA로 전환해, 이미지와 텍스트가 혼합된 학습 데이터셋으로 모델을 커스터마이징할 수 있게 됐다. UI 캡처 분류, 도면 해석, 상품 이미지 태깅 등 멀티모달 도메인 특화 태스크에서 범용 모델 대비 정확도가 유의미하게 향상된다. 학습 비용은 텍스트 파인튜닝 대비 토큰당 단가가 높으므로 데이터셋 설계 단계에서 품질 우선 전략이 필요하다.

openaifine-tuningmultimodal

비전 파인튜닝이 여는 가능성

GPT-4o 비전 파인튜닝은 기존 텍스트 전용 파인튜닝과 동일한 API 엔드포인트(POST /v1/fine_tuning/jobs)를 사용하되, 학습 데이터의 messages 배열에 image_url 콘텐츠 타입을 포함할 수 있다. 이를 통해 다음과 같은 시나리오가 가능해진다.

  • 디자인 시스템 자동 분류: Figma 스크린샷을 학습시켜 컴포넌트 명칭을 자동 태깅
  • 산업 도면 OCR 후처리: 엔지니어링 도면의 수치·기호를 구조화된 JSON으로 추출
  • 커머스 상품 이미지 속성 추출: 색상·소재·카테고리를 이미지만으로 분류

비용 및 기술 제약

| 항목 | 수치 | |---|---| | 학습 이미지 해상도 제한 | 최대 768×768px (자동 리사이즈) | | 학습 데이터 최소 샘플 수 | 10개 (권장 50개 이상) | | 이미지 토큰 단가 | 공식 페이지 참조 | | 파인튜닝된 모델 추론 단가 | 공식 페이지 참조 |

이미지는 학습 시 내부적으로 저해상도 타일로 인코딩되므로, 세밀한 텍스트가 포함된 이미지는 전처리 단계에서 크롭 또는 업스케일을 권장한다. JSONL 형식의 학습 파일 내 이미지는 base64 인코딩 또는 공개 URL 방식 모두 지원한다.

한국 크리에이터·개발자 활용 가이드

데이터 수집 전략: 도메인 특화 이미지 50~200장으로도 유의미한 성능 향상이 보고되고 있다. 레이블링 비용을 줄이려면 GPT-4o 기본 모델로 초안 레이블을 생성한 뒤 사람이 검수하는 반자동 파이프라인이 효율적이다.

평가 지표 설계: 비전 태스크는 정량 지표(정확도, F1) 외에 시각적 일관성 평가가 중요하므로, 검증 셋에 엣지 케이스(저조도, 부분 가림) 이미지를 반드시 포함해야 한다.

API 마이그레이션 주의사항: 기존 텍스트 파인튜닝 모델을 비전 파인튜닝 모델로 교체할 경우, 시스템 프롬프트의 이미지 참조 방식이 달라질 수 있으므로 A/B 테스트 후 트래픽을 점진적으로 전환하는 것을 권장한다.

출처: OpenAI 공식 문서