📰 AI 뉴스2026-06-054분

OpenAI, GPT-4.1 비전 파인튜닝 정식 개방—이미지+텍스트 쌍 학습 지원

OpenAI가 GPT-4.1 모델에 대해 이미지·텍스트 멀티모달 파인튜닝을 개발자 API로 정식 공개했다. UI 스크린샷 인식, 제품 이미지 분류 등 도메인 특화 비전 태스크를 자체 데이터로 튜닝할 수 있어, 범용 모델 대비 정확도와 응답 일관성을 높일 수 있다.

openaifine-tuningmultimodal

핵심 변경 사항

기존 GPT-4.1 파인튜닝은 텍스트 전용 데이터셋만 허용했다. 이번 업데이트로 학습 데이터에 image_url 또는 base64 인코딩 이미지를 포함한 멀티모달 메시지 포맷을 그대로 사용할 수 있다. 학습 파일 포맷은 기존 JSONL과 동일하며, messages 배열 내 content에 이미지 블록을 추가하는 방식이다.

데이터·비용 스펙

최소 학습 예시: 이미지 포함 시 최소 10개 이상 권장(텍스트 전용 동일)
이미지 해상도: 학습 이미지 최대 단변 1,024px 자동 리사이즈, 초과분 크롭
이미지당 토큰 환산: 저해상도 모드 85토큰, 고해상도 모드 타일 수에 따라 가변
학습 요금: 공식 페이지 참조 (토큰 기준 과금, 이미지 토큰 포함)
추론 요금: 파인튜닝된 GPT-4.1 비전 모델 추론은 공식 페이지 참조

실전 적용 가이드

UI/UX 자동화 QA: 웹·앱 스크린샷과 기대 동작 설명 쌍을 학습 데이터로 구성하면, 배포 후 스크린샷만 넘겨도 레이아웃 이상·버튼 누락 등을 자동 탐지하는 모델을 만들 수 있다.

커머스 상품 이미지 분류: 자사 카테고리 체계와 상품 이미지 쌍으로 파인튜닝하면 범용 GPT-4.1 대비 카테고리 정확도가 높아진다. 특히 범용 모델이 구분하기 어려운 세부 SKU 분류에 효과적이다.

출처: OpenAI Developer Docs

← 이전

OpenAI, 파인튜닝 대시보드 v2 정식 GA—실시간 손실 모니터링·자동 하이퍼파라미터 튜닝

Anthropic, Claude Haiku 4.5 배치 API 요금 50% 추가 인하