k
korAI
AI 뉴스 전체
📰 AI 뉴스2026-06-054분

OpenAI, GPT-4.1 비전 파인튜닝 정식 개방—이미지+텍스트 쌍 학습 지원

OpenAI가 GPT-4.1 모델에 대해 이미지·텍스트 멀티모달 파인튜닝을 개발자 API로 정식 공개했다. UI 스크린샷 인식, 제품 이미지 분류 등 도메인 특화 비전 태스크를 자체 데이터로 튜닝할 수 있어, 범용 모델 대비 정확도와 응답 일관성을 높일 수 있다.

openaifine-tuningmultimodal

핵심 변경 사항

기존 GPT-4.1 파인튜닝은 텍스트 전용 데이터셋만 허용했다. 이번 업데이트로 학습 데이터에 image_url 또는 base64 인코딩 이미지를 포함한 멀티모달 메시지 포맷을 그대로 사용할 수 있다. 학습 파일 포맷은 기존 JSONL과 동일하며, messages 배열 내 content에 이미지 블록을 추가하는 방식이다.

데이터·비용 스펙

  • 최소 학습 예시: 이미지 포함 시 최소 10개 이상 권장(텍스트 전용 동일)
  • 이미지 해상도: 학습 이미지 최대 단변 1,024px 자동 리사이즈, 초과분 크롭
  • 이미지당 토큰 환산: 저해상도 모드 85토큰, 고해상도 모드 타일 수에 따라 가변
  • 학습 요금: 공식 페이지 참조 (토큰 기준 과금, 이미지 토큰 포함)
  • 추론 요금: 파인튜닝된 GPT-4.1 비전 모델 추론은 공식 페이지 참조

실전 적용 가이드

UI/UX 자동화 QA: 웹·앱 스크린샷과 기대 동작 설명 쌍을 학습 데이터로 구성하면, 배포 후 스크린샷만 넘겨도 레이아웃 이상·버튼 누락 등을 자동 탐지하는 모델을 만들 수 있다.

커머스 상품 이미지 분류: 자사 카테고리 체계와 상품 이미지 쌍으로 파인튜닝하면 범용 GPT-4.1 대비 카테고리 정확도가 높아진다. 특히 범용 모델이 구분하기 어려운 세부 SKU 분류에 효과적이다.

데이터 준비 주의점: 학습 이미지는 OpenAI 서버에 업로드 후 최대 30일간 보관된다. 저작권이 있는 이미지나 개인정보가 포함된 스크린샷은 사전 마스킹 처리가 필요하다. 멀티모달 파인튜닝 모델은 현재 gpt-4.1-2025-04-14 스냅샷 기준으로만 제공된다.

출처: OpenAI Developer Docs