Gemma 3n 소개

12 hours ago 1

  • Gemma 3n은 모바일·엣지 환경을 위한 최신 온디바이스 멀티모달 AI 모델로, 이미지·오디오·비디오·텍스트를 모두 처리할 수 있음
  • 효율성 중심 구조와 혁신적 아키텍처(Matformer, Per-Layer Embeddings, MobileNet-V5 등) 로, 기존 클라우드 대형 모델 수준의 성능을 2~3GB 메모리에서 구현
  • E2B/E4B 두 가지 모델 크기 제공 및 Mix-n-Match 방식으로 하드웨어에 맞춘 세밀한 커스텀 사이즈 지원
  • 음성 인식·번역, 실시간 비전 분석, 140개 언어 다국어 처리 등 다양한 온디바이스 AI 활용 사례에 즉시 적용 가능
  • Hugging Face, Ollama, llama.cpp 등 주요 AI 오픈소스 생태계와 광범위하게 연동되며, 각종 툴·API·SDK로 즉시 활용 가능

개요 및 배경

  • 작년 초 출시된 최초의 Gemma 모델은 1억6천만회 이상의 다운로드를 기록하며 Gemmaverse라는 생태계로 성장함
  • 이 생태계에는 보안, 의료 등 다양한 특화 모델과 커뮤니티 기여로 만들어진 여러 혁신적 활용 사례가 포함됨
  • Google은 이러한 성공에 힘입어, 모바일 중심으로 설계된 Gemma 3n의 공식 릴리즈를 발표함
  • Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama 등 개발자 친화적 생태계와 도구의 광범위한 통합을 제공함
  • Gemma 3n의 핵심 혁신·벤치마크와 개발 방법에 대해 개발자 관점에서 심층적으로 소개함

What’s new in Gemma 3n?

  • Gemma 3n은 온디바이스 AI의 새로운 도약을 의미함
  • 텍스트, 이미지, 오디오, 비디오 입력 및 텍스트 출력의 네이티브 멀티모달 지원을 제공함
  • 효율성을 극대화하여 E2B(5B 파라미터), E4B(8B 파라미터) 두 가지 모델 크기로 제공하며, 낮은 메모리(2GB, 3GB)로도 실행 가능함
  • MatFormer, Per Layer Embeddings, LAuReL, AltUp 등의 혁신적 아키텍처 적용과 새로운 오디오·비전 인코더 탑재함
  • 140개 언어 지원, 35개 언어의 멀티모달 이해, 수학·코딩·추론능력 강화, E4B 기준 LMArena 1300점 돌파

MatFormer: 하나의 모델, 다양한 크기

  • MatFormer(🪆Matryoshka Transformer) 아키텍처는 확장성과 유연성을 위해 설계된 새로운 트랜스포머 구조임
  • 큰 모델 내부에 작은 모델이 독립적으로 포함되는 러시아 마트료시카 원리를 활용함
  • E4B 학습 시 E2B 서브모델을 동시에 최적화하여, 별도의 사전 추출된 모델 다운로드와 최대 2배 빠른 추론 가능함
  • Mix-n-Match 방식으로 하드웨어 제약에 맞춘 맞춤형 중간 모델(피드포워드 네트워크 또는 레이어 스킵 활용) 생성 가능함
  • MatFormer Lab에서 벤치마크 기반 최적 세팅 확인 및 모델 생성 가능함
  • 미래에는 Elastic execution(실시간 동적 모델 크기 전환)도 지원할 계획임

Per-Layer Embeddings (PLE): 온디바이스 메모리 효율 극대화

  • Per-Layer Embeddings(레이어별 임베딩) 으로 온디바이스 배포 시 품질 향상, 메모리 사용 최소화 실현함
  • 전체 파라미터(5B/8B) 중 임베딩만 CPU에서 효율적으로 로드/처리, 트랜스포머 코어(2B/4B)만 VRAM에 상주함
  • 덕분에 기존 대비 훨씬 작은 메모리(가속기에 약 2B 파라미터만)를 사용하면서도 품질 저하 없이 작동 가능함

KV Cache Sharing: 긴 컨텍스트 입력 최적화

  • Gemma 3n은 긴 오디오/비디오 등 순차적 입력을 빠르게 처리하기 위해 KV Cache Sharing 기능을 추가함
  • 프리필(초기 입력 처리) 단계에서 중간 레이어의 KV 캐시를 상위 레이어에 직접 공유, 최대 2배 이상 성능 개선
  • 긴 시퀀스 프롬프트를 기존보다 빠르게 인식하여 멀티모달 애플리케이션의 실시간성 향상 가능함

오디오 인식: STT 및 번역 지원

  • Universal Speech Model(USM) 기반의 오디오 인코더를 탑재, 160ms 단위의 오디오 토큰을 언어 모델 입력으로 활용함
  • 온디바이스 고품질 음성 인식(ASR), 음성 번역(AST) 구현 가능함
  • 영어↔스페인어, 프랑스어, 이탈리아어, 포르투갈어 등 주요 언어쌍에서 높은 성능이 확인됨
  • Chain-of-Thought 프롬프트 기법을 활용하면 번역 품질 향상이 가능함
  • 최초(런칭 시점) 오디오 인코더는 30초 클립까지 지원, 추후 더 긴 스트리밍 처리도 가능하도록 확장 예정임

MobileNet-V5: 최신 비전 인코더

  • Gemma 3n에 통합된 MobileNet-V5-300M은 엣지 디바이스에서도 강력한 성능을 제공하는 고효율 비전 인코더임
  • 256x256, 512x512, 768x768 픽셀 등 다양한 입력 해상도를 지원하여 요구에 맞는 성능·디테일 조정 가능함
  • 대규모 멀티모달 데이터셋 기반 공동 학습으로 이미지·비디오 이해 광범위성 실현 및 구체적 시각 과제 처리에 능함
  • Google Pixel에서 초당 60프레임 실시간 분석 가능
  • 아키텍처 측면에서는 MobileNet-V4 기반 블록(유니버설 인버티드 보틀넥, Mobile MQA) 및 하이브리드 피라미드 구조, Multi-Scale Fusion VLM 어댑터 등 다수 혁신 적용함
  • SoViT(Gemma 3 베이스라인) 대비 13배 속도, 46% 파라미터 절감, 4배 작은 메모리, 더 높은 정확도로 월등함
  • 기술 보고서 내 아키텍처, 데이터 확장 전략, 딥러닝 증류 기법 등 추가 공개 예정임

실전 적용 및 사용법

  • AI Studio에서 바로 사용해보기: https://aistudio.google.com/prompts/new_chat?model=gemma-3n-e4b-it
  • 모델 다운로드/배포: Hugging Face, Kaggle, Ollama, llama.cpp 등에서 즉시 사용 가능
  • 툴·프레임워크 연동: Hugging Face Transformers/TRL, MLX, Docker, LMStudio, NVIDIA NeMo, Unsloth 등 대부분 지원
  • API·클라우드 배포: Google GenAI API, Vertex AI, NVIDIA API 등 다양한 환경에서 배포

주요 온디바이스 활용 시나리오

  • 스마트폰/엣지 디바이스 내 실시간 AI 비서·음성 번역기·멀티모달 챗봇·실시간 비전 분석·IoT
  • 리소스 제약 환경에서의 AI 서비스 내재화
  • 오프라인·네트워크 제약 환경에서의 AI 혁신

개발자 리소스

Gemma 3n Impact Challenge

Read Entire Article