Gemma 3n 프리뷰: 모바일 우선 AI

1 month ago 7

Google이 Gemma 3n을 공개하며, 모바일 디바이스에서 강력하고 효율적인 AI 경험을 제공함
Gemma 3n은 개인정보 보호와 오프라인 실행에 초점을 맞추고, 텍스트, 오디오, 이미지, 영상 등 다중 모달 처리를 지원함
새로운 Per-Layer Embeddings(플램) 기술을 통해 적은 RAM으로 대규모 모델 구동이 가능해짐
높은 멀티링구얼 성능을 갖추고 있으며, 다양한 언어와 실제 환경에서의 실시간 상호작용 경험을 지원함
지금부터 Google AI Studio 및 Google AI Edge를 통해 미리 사용 및 개발 경험 가능함

소개 및 배경

Google은 Gemma 3 및 Gemma 3 QAT의 성공적인 출시에 이어, 모바일 환경 중심의 AI 모델인 Gemma 3n을 프리뷰로 선보임
Gemma 3n은 Qualcomm, MediaTek, Samsung System LSI 등 모바일 하드웨어 리더들과 긴밀히 협력하여 개발한 최신 구조를 기반으로 함
이 구조는 Android, Chrome에서 실시간, 개인화, 고성능 AI 경험을 가능하게 하며 개인정보 보호와 빠른 반응성을 중시함
Gemma 3n은 Gemini Nano 차세대 모델의 토대가 되며, 다양한 Google 앱 및 디바이스에도 적용 예정임

핵심 기술 및 특징

최적화된 온디바이스 성능

Per-Layer Embeddings (PLE) , KVC sharing, 고급 activation quantization 등의 혁신 기술로 메모리 점유율을 대폭 줄임
5B/8B 파라미터 모델임에도 2B/4B 모델 수준의 메모리(2GB/3GB)로 모바일 환경 동작 가능함
Gemma 3 4B 대비 1.5배 빠른 응답 속도와 높은 품질 구현함

Many-in-1 및 유연한 확장성

MatFormer 학습 방식으로 4B 모델 내에 2B 서브모델이 포함되어, 상황에 따라 동적으로 성능/품질을 조정함
별도의 모델 배포 없이, 품질 및 지연시간의 균형을 즉시 맞출 수 있는 mix’n’match 기능 제공함

개인정보 보호 및 오프라인 사용

디바이스 내에서 모델이 실행되어 사용자 프라이버시를 지키고, 인터넷 연결 없이도 신뢰성 있는 기능 구현 가능함

확장된 멀티모달 처리 능력 및 오디오 이해

Gemma 3n은 오디오, 텍스트, 이미지, 비디오 모두를 이해·처리할 수 있음
자동 음성 인식(transcription) 및 음성 기반 번역 지원, 복합 multimodal 입력 이해 가능
차후 공개될 구현을 통해 공개 API로의 확장 예정임

강화된 다국어 지원

일본어, 독일어, 한국어, 스페인어, 프랑스어 등에서 멀티링구얼 성능 대폭 향상됨
WMT24++(ChrF)와 같은 벤치마크에서 50.1% 성능 기록함

새로운 모바일 AI 경험의 지원

실시간 환경에서의 시각·청각 정보 해석 기반 인터랙티브 기능 개발 가능함
오디오, 이미지, 비디오, 텍스트 등 복합 입력 조합을 통한 심층적 맥락 이해와 텍스트 생성 구현함
실시간 음성 전사, 번역, 음성 기반 상호작용 등 오디오 중심 앱 개발 지원함

책임 있는 AI 개발

Google은 안전성 평가, 데이터 관리, 세이프티 규정 준수 등 책임감 있는 AI 방식을 일관되게 적용함
오픈 모델에 대한 위험 평가 및 정책 정비를 지속적으로 진행하며, 변화하는 AI 환경에 맞추어 발전함

시작하기: Gemma 3n 프리뷰 이용법

즉시 사용 가능한 접속 경로

Google AI Studio: 브라우저에서 바로 Gemma 3n을 체험 가능하며, 텍스트 입력 기능을 빠르게 시연할 수 있음
Google AI Edge: 로컬 환경에서 텍스트, 이미지 인식 및 생성 기능을 개발자에게 제공함

전망

Gemma 3n은 최첨단·효율적 AI에 대한 접근성을 높이는 전환점임
이번 프리뷰를 시작으로 스마트폰 및 다양한 플랫폼에서 혁신적인 온디바이스 AI 활용 가능성 확장됨
자세한 내용 및 최신 발표는 io.google에서 5월 22일부터 계속 업데이트 예정임

Read Entire Article