Google DeepMind의 Gemma 3 기술 보고서 [pdf]

2 days ago 1

Gemma 3는 Google DeepMind의 새로운 경량 오픈 모델 패밀리로, 파라미터 규모가 1B에서 27B까지 다양함
주요 개선 사항:
- 멀티모달 기능 추가 → 시각적 이해 능력 포함
- 긴 문맥 처리 → 최대 128K 토큰 처리 가능
- 다국어 지원 강화 → 다양한 언어에서 성능 향상
- 메모리 사용량 최적화 → 로컬 및 글로벌 주의(attention) 레이어 비율 조정(5:1)으로 KV-cache 메모리 사용 감소
지식 증류(Knowledge Distillation) 방식으로 훈련 → 이전 버전 대비 성능 향상

# 모델 아키텍처

디코더 전용 Transformer 아키텍처 유지
Grouped-Query Attention (GQA) 도입 → 더 효율적인 주의 메커니즘 적용
로컬/글로벌 주의 비율 5:1 설정 → 로컬 윈도우 크기를 1024 토큰으로 유지
RoPE (Rotary Position Embedding) 기본 주파수를 10K에서 1M으로 확대 → 장문 맥락 지원 강화
시각 인코더: SigLIP 기반 인코더 사용 (400M 파라미터)

# 비전 모달리티

시각 인코더: 896 x 896 해상도에서 작동
Pan & Scan (P&S) 기법 적용 → 비정형 비율 이미지 처리 가능
시각 인코더는 4B, 12B, 27B 모델에 공유됨 → 훈련 중에는 고정 상태 유지

# 사전 훈련 (Pre-training)

지식 증류 방식으로 훈련 수행
훈련에 사용된 토큰 수:
- 1B → 2T 토큰
- 4B → 4T 토큰
- 12B → 12T 토큰
- 27B → 14T 토큰
다국어 성능 개선 → 단일 언어 및 병렬 데이터 포함
정제 과정 → 개인 정보, 민감한 데이터 제거

# 양자화 학습 (Quantization Aware Training)

훈련 후 양자화 수행 → int4, fp8 등 다양한 형식으로 제공
메모리 절약 효과:
- 27B 모델 기준:
  - 원본: 54GB → 양자화 후: 최소 14.1GB

# 명령 튜닝 (Instruction Tuning)

강화 학습 및 지식 증류 병행 적용
도움성, 수학, 코딩, 추론, 다국어 능력 강화
강화 학습에 사용된 주요 기술:
- BOND, WARM, WARP → 보상 기반 강화 학습 기법 적용
데이터 정제 → 불필요한 데이터 및 민감 정보 제거

# 성능 평가

LMSYS Chatbot Arena 평가 결과

Gemma 3 27B IT 모델 Elo 점수: 1338 → 상위 10위 성능
GPT-4.5 및 Grok-3-Preview에 근접한 성능 기록
이전 버전인 Gemma 2 27B보다 118점 상승

표준 벤치마크 성능

MMLU-Pro: 67.5 (Gemma 2 대비 약 10점 상승)
MATH: 89.0 (Gemma 2 대비 약 34점 상승)
LiveCodeBench: 29.7 (Gemma 2 대비 약 9점 상승)

# 구조 변화에 따른 성능 분석

로컬:글로벌 주의 비율 → 5:1이 성능 및 메모리 사용에서 최적임
슬라이딩 윈도우 크기 → 1024 토큰이 성능 저하 없이 메모리 효율성 유지
KV 캐시 메모리 절감 → 글로벌 전용 주의 대비 15% 감소

# 장문 문맥 지원 강화

훈련 시 32K 토큰에서 시작 → 이후 128K 토큰으로 스케일 업
RoPE 주파수 조정 → 성능 저하 없이 문맥 확장

# 시각 인코더 성능 평가

입력 해상도 증가 시 성능 향상:
- 256 → 896 해상도 시 성능 최대 20% 상승
Pan & Scan 기법 적용 시 성능 증가:
- DocVQA → +4.8%
- InfoVQA → +17.0%

# 메모리 및 프라이버시 보호

기억률(Memorization Rate) 감소:
- Gemma 3가 Gemma 2 대비 메모리 사용률 감소
- 개인 정보 유출 위험 낮음

# 책임, 안전, 보안

Google의 안전 정책에 따라 유해 콘텐츠 방지:
- 아동 학대, 증오 발언, 개인 정보 유출 등 방지
강화된 강화 학습 및 RLHF 적용 → 유해 콘텐츠 생성 최소화

# 결론

Gemma 3는 기존 Gemma 2 모델 대비 멀티모달, 다국어, 긴 문맥 성능에서 큰 향상
시각 이해 능력, 수학 및 코딩 성능 강화
메모리 사용 최적화로 성능과 효율성 모두 향상

Read Entire Article