k
korAI
AI 뉴스 전체
📰 AI 뉴스2026-05-194분

Google DeepMind, Gemma 3n 온디바이스 모델 정식 공개—모바일·엣지 추론 최적화

Google DeepMind가 모바일 및 엣지 환경에 특화된 경량 오픈 모델 Gemma 3n을 정식 공개했다. 기존 Gemma 3 대비 파라미터 효율이 크게 개선되어 스마트폰급 하드웨어에서도 실시간 추론이 가능하며, 한국어를 포함한 다국어 지원이 내장되어 있어 온디바이스 AI 앱을 개발하는 한국 개발자에게 직접적인 기회가 된다.

googleon-deviceopen-source

Gemma 3n이란 무엇인가

Google DeepMind는 2026년 5월 19일 Gemma 3n 시리즈를 정식 공개했다. 'n'은 'nano-class efficiency'를 의미하며, MatFormer 아키텍처 기반의 중첩형 파라미터 구조를 채택해 실제 활성화되는 파라미터 수를 동적으로 조절할 수 있다. 공개된 모델 크기는 E2B(Effective 2B)E4B(Effective 4B) 두 가지이며, 풀 파라미터 로드 없이도 해당 규모의 성능을 구현하는 것이 핵심 설계 목표다.

주요 스펙 요약:

  • E2B: 모바일 NPU(예: Snapdragon 8 Elite, Google Tensor G4) 기준 초당 30토큰 이상 추론
  • E4B: 소형 서버 또는 고사양 PC GPU(RTX 4060 급)에서 실시간 멀티모달 처리 가능
  • 컨텍스트 윈도우: 32,768 토큰
  • 지원 모달리티: 텍스트, 이미지, 오디오(E4B 한정)
  • 라이선스: Gemma Terms of Use (상업적 사용 허용, 공식 페이지 참조)

한국 개발자 입장에서 주목할 포인트

1. 온디바이스 한국어 추론 품질 향상 Gemma 3n은 사전 학습 데이터에 한국어 웹 코퍼스 비중을 늘렸으며, 공식 벤치마크에서 한국어 지시 따르기(instruction following) 점수가 Gemma 3 2B 대비 약 18% 향상된 것으로 발표됐다. 서버 없이 앱 내부에서 한국어 요약·분류·챗봇 기능을 구현할 때 유의미한 품질 차이를 기대할 수 있다.

2. Android AI Edge SDK 즉시 연동 Google은 Gemma 3n을 Android AI Edge SDKMediaPipe LLM Inference API와 동시에 연동 지원한다고 밝혔다. 즉, Android Studio에서 몇 줄의 Kotlin 코드로 모델을 앱에 번들링하거나 스트리밍 추론을 붙일 수 있다.

// MediaPipe LLM Inference 예시 (공식 샘플 기반)
val options = LlmInference.LlmInferenceOptions.builder()
    .setModelPath("/data/local/tmp/gemma3n-e2b.task")
    .setMaxTokens(1024)
    .build()
val llmInference = LlmInference.createFromOptions(context, options)
llmInference.generateResponseAsync(prompt) { result, done -> /* 처리 */ }

3. Hugging Face·Ollama 동시 배포 모델 가중치는 Hugging Face(google/gemma-3n-e2b-it, google/gemma-3n-e4b-it)와 Ollama 레지스트리에 동시 업로드됐다. 로컬 테스트는 ollama run gemma3n:e4b 한 줄로 시작할 수 있다.

실전 활용 시나리오와 주의사항

추천 활용 사례

  • 인터넷 연결 없는 환경의 오프라인 번역·요약 앱 (E2B)
  • 개인정보 민감 데이터를 서버 전송 없이 처리하는 헬스케어·금융 보조 앱 (E4B)
  • 엣지 디바이스(라즈베리파이 5, Jetson Orin Nano)에서 동작하는 IoT 자연어 인터페이스 (E2B)

주의사항

  • E4B 오디오 입력 기능은 현재 영어·일본어·한국어 3개 언어만 지원하며, 한국어 오디오 WER(단어 오류율) 공식 수치는 미공개 상태다.
  • 상업 서비스 적용 전 Gemma Terms of Use의 금지 사용 목적 조항을 반드시 확인해야 한다.
  • 모델 양자화(INT4/INT8) 적용 시 성능 변동이 있으므로 타깃 디바이스에서 직접 벤치마크를 권장한다.

공식 모델 카드 및 라이선스 전문은 Hugging Face google/gemma-3n-e4b-it 페이지를 참조한다.

출처: Google DeepMind Blog