📰 AI 뉴스2026-06-185분

Hugging Face, 서드파티 추론 프로바이더 통합 API 정식 공개

Hugging Face가 단일 API 엔드포인트로 Together AI·Fireworks AI·Nebius 등 외부 추론 인프라를 호출할 수 있는 Inference Providers 기능을 정식 공개했다. 모델 허브에서 프로바이더를 선택하면 동일한 `InferenceClient` 코드로 공급사를 전환할 수 있어 벤더 종속 리스크가 줄어든다. 오픈소스 모델을 프로덕션에 투입하는 한국 스타트업과 크리에이터 툴 개발자에게 멀티 클라우드 전략의 실용적 출발점이 된다.

huggingfaceopen-sourceinference

Inference Providers 개요

Hugging Face Inference Providers는 Hub에 등록된 오픈소스 모델(Llama 4, Mistral, Qwen 등)을 외부 추론 인프라에서 실행하되 Hugging Face 자격증명 하나로 관리하는 통합 레이어다. 기존 huggingface_hub Python 패키지 0.24 이상에서 provider 파라미터 한 줄 추가로 활성화된다.

from huggingface_hub import InferenceClient

client = InferenceClient(
    model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
    provider="together",  # 또는 "fireworks", "nebius"
    token="hf_..."
)
response = client.chat_completion(messages=[{"role": "user", "content": "안녕"}])

지원 프로바이더별 특징

| 프로바이더 | 강점 | 비고 | |---|---|---| | Together AI | 대형 모델 고속 추론, Llama 4 계열 최적화 | 공식 페이지 참조 | | Fireworks AI | 낮은 지연, 멀티모달 지원 | 공식 페이지 참조 | | Nebius | 유럽 데이터 레지던시, GDPR 친화 | 공식 페이지 참조 | | Hugging Face Serverless | 소량 테스트용 무료 티어 유지 | 분당 요청 제한 있음 |

한국 개발자 실전 활용법

A/B 비용 비교: 동일 프롬프트를 provider 파라미터만 바꿔 속도·비용 벤치마크 후 최적 공급사 선택.
장애 대응 Fallback: Together AI 장애 시 Fireworks로 자동 전환하는 재시도 로직을 10줄 내외로 구현 가능.
한국어 특화 모델 투입: EXAONE 3.5, HyperCLOVA X 파생 오픈소스 모델을 Hub에 등록한 뒤 동일 클라이언트로 서빙해 내부 한국어 챗봇 프로덕션 배포 가능.
Hugging Face Pro 구독($9/월) 없이도 API 토큰만으로 사용 가능하며, 각 프로바이더 요금은 해당 공식 페이지에서 확인해야 한다.

출처: Hugging Face Blog

← 이전

Google, Gemini 2.5 Flash-Lite 정식 GA—저비용 고속 추론 API 공개

OpenAI Codex CLI 정식 GA—터미널에서 자연어로 코드 실행