📰 AI 뉴스2026-05-094분

Google DeepMind, Gemma 3 27B 함수 호출 기능 정식 GA 전환

Google DeepMind가 오픈소스 모델 Gemma 3 27B의 함수 호출(Function Calling) 기능을 정식 GA로 전환하고, Vertex AI 및 로컬 추론 환경 모두에서 사용 가능하도록 공개했다. 이로써 한국 개발자는 클라우드 의존 없이 온프레미스 환경에서도 구조화된 도구 호출 에이전트를 구축할 수 있게 됐다.

googleopen-sourcellm

무엇이 달라졌나

Google DeepMind는 2026년 5월 9일, Gemma 3 27B 모델에 대한 함수 호출(Function Calling) 기능을 정식 GA(Generally Available)로 전환했다. 기존 베타 단계에서는 JSON 스키마 기반 도구 정의가 불안정했으나, 이번 업데이트로 OpenAI Tool Call 스펙과 호환되는 표준 인터페이스가 확정됐다.

주요 변경 사항:

병렬 함수 호출(Parallel Function Calling) 지원: 단일 추론 패스에서 최대 8개 도구 동시 호출 가능
스트리밍 Tool Use: 부분 JSON 청크를 스트리밍으로 수신, 첫 토큰 지연 평균 18% 감소(내부 벤치마크 기준)
컨텍스트 윈도우: 128K 토큰 유지, 긴 문서 내 도구 체이닝에 적합

로컬 실행 및 한국 개발자 적용 방법

Gemma 3 27B는 Ollama 0.6+, llama.cpp, vLLM 0.5+ 환경에서 함수 호출 기능을 그대로 사용할 수 있다. GPU 요구 사양은 INT4 양자화 기준 VRAM 16GB (RTX 4080 / A10G 수준)이며, BF16 풀 정밀도는 VRAM 56GB 이상이 권장된다.

# Ollama로 바로 실행
ollama pull gemma3:27b
ollama run gemma3:27b

Python SDK(google-generativeai 0.8+)를 사용하면 Vertex AI 엔드포인트와 로컬 Ollama 서버를 동일한 코드로 전환할 수 있어, 개발·운영 환경 분리 비용이 줄어든다.

가격: Vertex AI 기준 공식 페이지 참조, Hugging Face 및 로컬 실행은 무료(모델 가중치 Apache 2.0 라이선스).

실무 활용 포인트

1. RAG + 에이전트 파이프라인 내재화 함수 호출 GA 전환으로 LangChain, LlamaIndex의 Tool Agent 추상화 레이어를 Gemma 3 27B 백엔드로 직접 연결할 수 있다. 외부 API 비용 없이 사내 망에서 완결된 에이전트 루프 구현이 가능하다.

2. 크리에이터·콘텐츠 자동화 유튜브 스크립트 생성, SNS 포스팅 스케줄러 등 도구 체이닝이 필요한 콘텐츠 자동화 워크플로에서 GPT-4o 대비 API 비용 0원 로컬 대안으로 검토할 만하다.

3. 한국어 성능 주의사항 Gemma 3 27B의 한국어 함수 호출은 영어 대비 인수(argument) 추출 정확도가 약 7~12% 낮다는 커뮤니티 보고가 있다. 시스템 프롬프트를 영어로 작성하고 사용자 입력만 한국어로 받는 하이브리드 구성을 권장한다.

출처: Google DeepMind Blog

← 이전

OpenAI GPT-5, 시스템 카드 공개—컨텍스트·안전 정책 상세 확인

HuggingFace smolagents 1.0 안정화 릴리스—경량 AI 에이전트 프레임워크