Google, Gemma 3 27B 함수 호출 정식 지원—로컬 에이전트 구축 가능
Google DeepMind가 오픈웨이트 모델 Gemma 3 27B에 함수 호출(Function Calling) 기능을 정식 지원하기 시작했다. 이로써 개발자는 Ollama·llama.cpp 등 로컬 환경에서 외부 API 연동 에이전트를 클라우드 의존 없이 구축할 수 있게 됐다.
무엇이 바뀌었나
Google DeepMind는 2026년 6월 15일 Gemma 3 27B 모델의 공식 릴리스 노트를 통해 구조화된 함수 호출 스펙을 확정했다. JSON Schema 형식으로 도구를 정의하면 모델이 적절한 함수를 선택하고 파라미터를 자동 추출한다. 기존 Gemma 3 시리즈(2B·9B)에는 없던 기능으로, 27B 파라미터 규모에서만 안정적 동작이 보장된다.
로컬 실행 시 주요 스펙
- 모델 크기: Q4_K_M 양자화 기준 약 17 GB VRAM
- 추론 속도: RTX 4090 단일 GPU 기준 평균 28 tokens/s (함수 호출 오버헤드 포함)
- 컨텍스트 윈도우: 128,000 토큰
- 지원 런타임: Ollama 0.4.x 이상, llama.cpp b3700 이상, Transformers 4.46 이상
- 라이선스: Gemma Terms of Use (상업적 사용 허용, 재배포 조건 확인 필요)
함수 정의는 OpenAI Tool Use 스펙과 호환되는 포맷을 채택해 기존 에이전트 프레임워크(LangChain, LlamaIndex)에서 드롭인 교체가 가능하다.
한국 개발자·크리에이터에게 왜 중요한가
국내 스타트업과 1인 개발자 입장에서 가장 큰 장점은 데이터 프라이버시와 비용 절감이다. 고객 데이터를 외부 클라우드 API로 전송하지 않고도 함수 호출 기반 에이전트를 운영할 수 있어, 개인정보보호법(PIPA) 준수 부담이 줄어든다. 또한 API 호출 단가 없이 서버 전력 비용만 부담하므로 대용량 배치 처리 시나리오에서 경제적이다.
크리에이터 툴링 측면에서는 로컬 LLM이 유튜브 자막 파일 파싱, SNS 스케줄러 API 연동, 이미지 메타데이터 추출 등 반복 작업을 자율 수행하는 워크플로를 온디바이스로 구현할 수 있다.
빠른 시작 예시 (Ollama)
# 모델 풀
ollama pull gemma3:27b
# 함수 호출 지원 여부 확인
ollama show gemma3:27b --modelfile | grep tool
공식 함수 호출 문서와 스키마 레퍼런스는 Google AI 공식 페이지를 참조한다.