📰 AI 뉴스2026-05-194분

Google DeepMind, Gemma 3n 온디바이스 모델 정식 공개—모바일·엣지 추론 최적화

Google DeepMind가 모바일 및 엣지 환경에 특화된 경량 오픈 모델 Gemma 3n을 정식 공개했다. 기존 Gemma 3 대비 파라미터 효율이 크게 개선되어 스마트폰급 하드웨어에서도 실시간 추론이 가능하며, 한국어를 포함한 다국어 지원이 내장되어 있어 온디바이스 AI 앱을 개발하는 한국 개발자에게 직접적인 기회가 된다.

googleon-deviceopen-source

Gemma 3n이란 무엇인가

Google DeepMind는 2026년 5월 19일 Gemma 3n 시리즈를 정식 공개했다. 'n'은 'nano-class efficiency'를 의미하며, MatFormer 아키텍처 기반의 중첩형 파라미터 구조를 채택해 실제 활성화되는 파라미터 수를 동적으로 조절할 수 있다. 공개된 모델 크기는 E2B(Effective 2B) 와 E4B(Effective 4B) 두 가지이며, 풀 파라미터 로드 없이도 해당 규모의 성능을 구현하는 것이 핵심 설계 목표다.

주요 스펙 요약:

E2B: 모바일 NPU(예: Snapdragon 8 Elite, Google Tensor G4) 기준 초당 30토큰 이상 추론
E4B: 소형 서버 또는 고사양 PC GPU(RTX 4060 급)에서 실시간 멀티모달 처리 가능
컨텍스트 윈도우: 32,768 토큰
지원 모달리티: 텍스트, 이미지, 오디오(E4B 한정)
라이선스: Gemma Terms of Use (상업적 사용 허용, 공식 페이지 참조)

한국 개발자 입장에서 주목할 포인트

1. 온디바이스 한국어 추론 품질 향상 Gemma 3n은 사전 학습 데이터에 한국어 웹 코퍼스 비중을 늘렸으며, 공식 벤치마크에서 한국어 지시 따르기(instruction following) 점수가 Gemma 3 2B 대비 약 18% 향상된 것으로 발표됐다. 서버 없이 앱 내부에서 한국어 요약·분류·챗봇 기능을 구현할 때 유의미한 품질 차이를 기대할 수 있다.

2. Android AI Edge SDK 즉시 연동 Google은 Gemma 3n을 Android AI Edge SDK 및 MediaPipe LLM Inference API와 동시에 연동 지원한다고 밝혔다. 즉, Android Studio에서 몇 줄의 Kotlin 코드로 모델을 앱에 번들링하거나 스트리밍 추론을 붙일 수 있다.

// MediaPipe LLM Inference 예시 (공식 샘플 기반)
val options = LlmInference.LlmInferenceOptions.builder()
    .setModelPath("/data/local/tmp/gemma3n-e2b.task")
    .setMaxTokens(1024)
    .build()
val llmInference = LlmInference.createFromOptions(context, options)
llmInference.generateResponseAsync(prompt) { result, done -> /* 처리 */ }

3. Hugging Face·Ollama 동시 배포 모델 가중치는 Hugging Face(google/gemma-3n-e2b-it, google/gemma-3n-e4b-it)와 Ollama 레지스트리에 동시 업로드됐다. 로컬 테스트는 ollama run gemma3n:e4b 한 줄로 시작할 수 있다.

실전 활용 시나리오와 주의사항

추천 활용 사례

인터넷 연결 없는 환경의 오프라인 번역·요약 앱 (E2B)
개인정보 민감 데이터를 서버 전송 없이 처리하는 헬스케어·금융 보조 앱 (E4B)
엣지 디바이스(라즈베리파이 5, Jetson Orin Nano)에서 동작하는 IoT 자연어 인터페이스 (E2B)

주의사항

E4B 오디오 입력 기능은 현재 영어·일본어·한국어 3개 언어만 지원하며, 한국어 오디오 WER(단어 오류율) 공식 수치는 미공개 상태다.
상업 서비스 적용 전 Gemma Terms of Use의 금지 사용 목적 조항을 반드시 확인해야 한다.
모델 양자화(INT4/INT8) 적용 시 성능 변동이 있으므로 타깃 디바이스에서 직접 벤치마크를 권장한다.

공식 모델 카드 및 라이선스 전문은 Hugging Face google/gemma-3n-e4b-it 페이지를 참조한다.

출처: Google DeepMind Blog

← 이전

Cursor, MCP 서버 마켓플레이스 정식 출시—원클릭 툴 연동

Meta, Llama 4 Scout·Maverick 한국어 시스템 프롬프트 공식 벤치마크 공개