Google DeepMind, Gemma 3 27B 함수 호출 공식 지원—온프레미스 에이전트 구축 가능
Google DeepMind가 오픈소스 모델 Gemma 3 27B에 함수 호출(Function Calling) 기능을 정식 탑재하고 Hugging Face 및 Kaggle을 통해 업데이트된 가중치를 배포했다. 이로써 개발자는 외부 API 호출이나 로컬 툴 실행을 클라우드 의존 없이 자체 인프라에서 구현할 수 있어, 데이터 외부 유출을 꺼리는 기업 환경에서의 에이전트 파이프라인 구축 비용이 크게 낮아진다.
무엇이 달라졌나
Gemma 3 27B 모델에 JSON 스키마 기반 함수 호출 인터페이스가 추가됐다. 기존 Gemma 3 계열은 텍스트 생성·멀티모달 추론에 특화되어 있었지만, 에이전트 루프를 구성하려면 GPT-4o 미니나 Claude Haiku 4.5 같은 클라우드 API를 경유해야 했다. 이번 업데이트로 tool_use / tool_result 형식의 메시지 포맷을 공식 지원하며, OpenAI 호환 함수 호출 스키마와도 호환되도록 변환 레이어가 제공된다.
성능·하드웨어 요구사항
| 항목 | 수치 | |---|---| | 파라미터 수 | 27B | | 최소 VRAM (4-bit 양자화) | 약 18 GB | | 최소 VRAM (bfloat16) | 약 54 GB | | 컨텍스트 길이 | 128K 토큰 | | 함수 정의 최대 개수 | 64개 |
RTX 4090(24 GB) 단일 GPU에서 4-bit GPTQ 양자화 적용 시 토큰 생성 속도는 약 28 tok/s로, 간단한 멀티스텝 에이전트 루프를 로컬에서 실시간에 가깝게 구동할 수 있다. 상업적 이용은 Gemma Terms of Use 기준 월 활성 사용자 2,100만 명 이하 서비스에서 무료로 허용된다.
한국 개발자·크리에이터 활용 포인트
1. 온프레미스 RAG + 에이전트 통합
금융·의료·공공 분야처럼 데이터를 외부로 보낼 수 없는 환경에서, Gemma 3 27B를 오케스트레이터로 세워 내부 DB 조회 함수·사내 API를 직접 호출하는 파이프라인을 구성할 수 있다. LangChain ChatOllama 또는 llama-cpp-python의 tool_choice 파라미터와 바로 연동된다.
2. Cursor·VS Code 로컬 LLM 백엔드 실험
ollama run gemma3:27b로 로컬 서버를 띄운 뒤 Cursor의 Custom Model 엔드포인트에 연결하면, 월 구독료 없이 함수 호출 기반 코드 에이전트를 테스트할 수 있다. 다만 프로덕션 품질은 클라우드 모델 대비 검증이 필요하다.
3. 크리에이터 자동화 워크플로
YouTube Data API, Notion API, 이미지 생성 API 등을 함수로 등록해 콘텐츠 기획→초안 작성→썸네일 생성 요청을 단일 로컬 에이전트가 순차 처리하는 파이프라인을 무료로 구축할 수 있다.
주의사항
- 복잡한 병렬 함수 호출(Parallel Tool Use)은 현재 실험적 지원 단계이므로 프로덕션 적용 전 충분한 테스트가 필요하다.
- 라이선스 조건(월 2,100만 MAU 초과 시 Google과 별도 계약 필요)은 서비스 규모 성장 시 반드시 재확인할 것.
- 최신 가중치 및 라이선스 상세는 공식 페이지를 참조.