Google DeepMind의 Gemma 3 기술 보고서 [pdf]

2 days ago 1

  • Gemma 3는 Google DeepMind의 새로운 경량 오픈 모델 패밀리로, 파라미터 규모가 1B에서 27B까지 다양함
  • 주요 개선 사항:
    • 멀티모달 기능 추가 → 시각적 이해 능력 포함
    • 긴 문맥 처리 → 최대 128K 토큰 처리 가능
    • 다국어 지원 강화 → 다양한 언어에서 성능 향상
    • 메모리 사용량 최적화 → 로컬 및 글로벌 주의(attention) 레이어 비율 조정(5:1)으로 KV-cache 메모리 사용 감소
  • 지식 증류(Knowledge Distillation) 방식으로 훈련 → 이전 버전 대비 성능 향상

# 모델 아키텍처

  • 디코더 전용 Transformer 아키텍처 유지
  • Grouped-Query Attention (GQA) 도입 → 더 효율적인 주의 메커니즘 적용
  • 로컬/글로벌 주의 비율 5:1 설정 → 로컬 윈도우 크기를 1024 토큰으로 유지
  • RoPE (Rotary Position Embedding) 기본 주파수를 10K에서 1M으로 확대 → 장문 맥락 지원 강화
  • 시각 인코더: SigLIP 기반 인코더 사용 (400M 파라미터)

# 비전 모달리티

  • 시각 인코더: 896 x 896 해상도에서 작동
  • Pan & Scan (P&S) 기법 적용 → 비정형 비율 이미지 처리 가능
  • 시각 인코더는 4B, 12B, 27B 모델에 공유됨 → 훈련 중에는 고정 상태 유지

# 사전 훈련 (Pre-training)

  • 지식 증류 방식으로 훈련 수행
  • 훈련에 사용된 토큰 수:
    • 1B → 2T 토큰
    • 4B → 4T 토큰
    • 12B → 12T 토큰
    • 27B → 14T 토큰
  • 다국어 성능 개선 → 단일 언어 및 병렬 데이터 포함
  • 정제 과정 → 개인 정보, 민감한 데이터 제거

# 양자화 학습 (Quantization Aware Training)

  • 훈련 후 양자화 수행 → int4, fp8 등 다양한 형식으로 제공
  • 메모리 절약 효과:
    • 27B 모델 기준:
      • 원본: 54GB → 양자화 후: 최소 14.1GB

# 명령 튜닝 (Instruction Tuning)

  • 강화 학습 및 지식 증류 병행 적용
  • 도움성, 수학, 코딩, 추론, 다국어 능력 강화
  • 강화 학습에 사용된 주요 기술:
    • BOND, WARM, WARP → 보상 기반 강화 학습 기법 적용
  • 데이터 정제 → 불필요한 데이터 및 민감 정보 제거

# 성능 평가

LMSYS Chatbot Arena 평가 결과

  • Gemma 3 27B IT 모델 Elo 점수: 1338 → 상위 10위 성능
  • GPT-4.5 및 Grok-3-Preview에 근접한 성능 기록
  • 이전 버전인 Gemma 2 27B보다 118점 상승

표준 벤치마크 성능

  • MMLU-Pro: 67.5 (Gemma 2 대비 약 10점 상승)
  • MATH: 89.0 (Gemma 2 대비 약 34점 상승)
  • LiveCodeBench: 29.7 (Gemma 2 대비 약 9점 상승)

# 구조 변화에 따른 성능 분석

  • 로컬:글로벌 주의 비율 → 5:1이 성능 및 메모리 사용에서 최적임
  • 슬라이딩 윈도우 크기 → 1024 토큰이 성능 저하 없이 메모리 효율성 유지
  • KV 캐시 메모리 절감 → 글로벌 전용 주의 대비 15% 감소

# 장문 문맥 지원 강화

  • 훈련 시 32K 토큰에서 시작 → 이후 128K 토큰으로 스케일 업
  • RoPE 주파수 조정 → 성능 저하 없이 문맥 확장

# 시각 인코더 성능 평가

  • 입력 해상도 증가 시 성능 향상:
    • 256 → 896 해상도 시 성능 최대 20% 상승
  • Pan & Scan 기법 적용 시 성능 증가:
    • DocVQA → +4.8%
    • InfoVQA → +17.0%

# 메모리 및 프라이버시 보호

  • 기억률(Memorization Rate) 감소:
    • Gemma 3가 Gemma 2 대비 메모리 사용률 감소
    • 개인 정보 유출 위험 낮음

# 책임, 안전, 보안

  • Google의 안전 정책에 따라 유해 콘텐츠 방지:
    • 아동 학대, 증오 발언, 개인 정보 유출 등 방지
  • 강화된 강화 학습 및 RLHF 적용 → 유해 콘텐츠 생성 최소화

# 결론

  • Gemma 3는 기존 Gemma 2 모델 대비 멀티모달, 다국어, 긴 문맥 성능에서 큰 향상
  • 시각 이해 능력, 수학 및 코딩 성능 강화
  • 메모리 사용 최적화로 성능과 효율성 모두 향상

Read Entire Article