- Google이 Gemma 3n을 공개하며, 모바일 디바이스에서 강력하고 효율적인 AI 경험을 제공함
- Gemma 3n은 개인정보 보호와 오프라인 실행에 초점을 맞추고, 텍스트, 오디오, 이미지, 영상 등 다중 모달 처리를 지원함
- 새로운 Per-Layer Embeddings(플램) 기술을 통해 적은 RAM으로 대규모 모델 구동이 가능해짐
- 높은 멀티링구얼 성능을 갖추고 있으며, 다양한 언어와 실제 환경에서의 실시간 상호작용 경험을 지원함
- 지금부터 Google AI Studio 및 Google AI Edge를 통해 미리 사용 및 개발 경험 가능함
소개 및 배경
- Google은 Gemma 3 및 Gemma 3 QAT의 성공적인 출시에 이어, 모바일 환경 중심의 AI 모델인 Gemma 3n을 프리뷰로 선보임
- Gemma 3n은 Qualcomm, MediaTek, Samsung System LSI 등 모바일 하드웨어 리더들과 긴밀히 협력하여 개발한 최신 구조를 기반으로 함
- 이 구조는 Android, Chrome에서 실시간, 개인화, 고성능 AI 경험을 가능하게 하며 개인정보 보호와 빠른 반응성을 중시함
-
Gemma 3n은 Gemini Nano 차세대 모델의 토대가 되며, 다양한 Google 앱 및 디바이스에도 적용 예정임
핵심 기술 및 특징
최적화된 온디바이스 성능
-
Per-Layer Embeddings (PLE) , KVC sharing, 고급 activation quantization 등의 혁신 기술로 메모리 점유율을 대폭 줄임
- 5B/8B 파라미터 모델임에도 2B/4B 모델 수준의 메모리(2GB/3GB)로 모바일 환경 동작 가능함
-
Gemma 3 4B 대비 1.5배 빠른 응답 속도와 높은 품질 구현함
Many-in-1 및 유연한 확장성
-
MatFormer 학습 방식으로 4B 모델 내에 2B 서브모델이 포함되어, 상황에 따라 동적으로 성능/품질을 조정함
- 별도의 모델 배포 없이, 품질 및 지연시간의 균형을 즉시 맞출 수 있는 mix’n’match 기능 제공함
개인정보 보호 및 오프라인 사용
- 디바이스 내에서 모델이 실행되어 사용자 프라이버시를 지키고, 인터넷 연결 없이도 신뢰성 있는 기능 구현 가능함
확장된 멀티모달 처리 능력 및 오디오 이해
- Gemma 3n은 오디오, 텍스트, 이미지, 비디오 모두를 이해·처리할 수 있음
-
자동 음성 인식(transcription) 및 음성 기반 번역 지원, 복합 multimodal 입력 이해 가능
- 차후 공개될 구현을 통해 공개 API로의 확장 예정임
강화된 다국어 지원
- 일본어, 독일어, 한국어, 스페인어, 프랑스어 등에서 멀티링구얼 성능 대폭 향상됨
- WMT24++(ChrF)와 같은 벤치마크에서 50.1% 성능 기록함
새로운 모바일 AI 경험의 지원
- 실시간 환경에서의 시각·청각 정보 해석 기반 인터랙티브 기능 개발 가능함
- 오디오, 이미지, 비디오, 텍스트 등 복합 입력 조합을 통한 심층적 맥락 이해와 텍스트 생성 구현함
-
실시간 음성 전사, 번역, 음성 기반 상호작용 등 오디오 중심 앱 개발 지원함
책임 있는 AI 개발
- Google은 안전성 평가, 데이터 관리, 세이프티 규정 준수 등 책임감 있는 AI 방식을 일관되게 적용함
- 오픈 모델에 대한 위험 평가 및 정책 정비를 지속적으로 진행하며, 변화하는 AI 환경에 맞추어 발전함
시작하기: Gemma 3n 프리뷰 이용법
즉시 사용 가능한 접속 경로
-
Google AI Studio: 브라우저에서 바로 Gemma 3n을 체험 가능하며, 텍스트 입력 기능을 빠르게 시연할 수 있음
-
Google AI Edge: 로컬 환경에서 텍스트, 이미지 인식 및 생성 기능을 개발자에게 제공함
전망
- Gemma 3n은 최첨단·효율적 AI에 대한 접근성을 높이는 전환점임
- 이번 프리뷰를 시작으로 스마트폰 및 다양한 플랫폼에서 혁신적인 온디바이스 AI 활용 가능성 확장됨
- 자세한 내용 및 최신 발표는 io.google에서 5월 22일부터 계속 업데이트 예정임