-
Gemma 3는 Google DeepMind의 새로운 경량 오픈 모델 패밀리로, 파라미터 규모가 1B에서 27B까지 다양함
- 주요 개선 사항:
-
멀티모달 기능 추가 → 시각적 이해 능력 포함
-
긴 문맥 처리 → 최대 128K 토큰 처리 가능
-
다국어 지원 강화 → 다양한 언어에서 성능 향상
-
메모리 사용량 최적화 → 로컬 및 글로벌 주의(attention) 레이어 비율 조정(5:1)으로 KV-cache 메모리 사용 감소
-
지식 증류(Knowledge Distillation) 방식으로 훈련 → 이전 버전 대비 성능 향상
# 모델 아키텍처
-
디코더 전용 Transformer 아키텍처 유지
-
Grouped-Query Attention (GQA) 도입 → 더 효율적인 주의 메커니즘 적용
-
로컬/글로벌 주의 비율 5:1 설정 → 로컬 윈도우 크기를 1024 토큰으로 유지
-
RoPE (Rotary Position Embedding) 기본 주파수를 10K에서 1M으로 확대 → 장문 맥락 지원 강화
-
시각 인코더: SigLIP 기반 인코더 사용 (400M 파라미터)
# 비전 모달리티
-
시각 인코더: 896 x 896 해상도에서 작동
-
Pan & Scan (P&S) 기법 적용 → 비정형 비율 이미지 처리 가능
- 시각 인코더는 4B, 12B, 27B 모델에 공유됨 → 훈련 중에는 고정 상태 유지
# 사전 훈련 (Pre-training)
-
지식 증류 방식으로 훈련 수행
- 훈련에 사용된 토큰 수:
-
1B → 2T 토큰
-
4B → 4T 토큰
-
12B → 12T 토큰
-
27B → 14T 토큰
- 다국어 성능 개선 → 단일 언어 및 병렬 데이터 포함
-
정제 과정 → 개인 정보, 민감한 데이터 제거
# 양자화 학습 (Quantization Aware Training)
- 훈련 후 양자화 수행 → int4, fp8 등 다양한 형식으로 제공
-
메모리 절약 효과:
- 27B 모델 기준:
- 원본: 54GB → 양자화 후: 최소 14.1GB
# 명령 튜닝 (Instruction Tuning)
- 강화 학습 및 지식 증류 병행 적용
-
도움성, 수학, 코딩, 추론, 다국어 능력 강화
- 강화 학습에 사용된 주요 기술:
-
BOND, WARM, WARP → 보상 기반 강화 학습 기법 적용
- 데이터 정제 → 불필요한 데이터 및 민감 정보 제거
# 성능 평가
LMSYS Chatbot Arena 평가 결과
- Gemma 3 27B IT 모델 Elo 점수: 1338 → 상위 10위 성능
- GPT-4.5 및 Grok-3-Preview에 근접한 성능 기록
- 이전 버전인 Gemma 2 27B보다 118점 상승
표준 벤치마크 성능
-
MMLU-Pro: 67.5 (Gemma 2 대비 약 10점 상승)
-
MATH: 89.0 (Gemma 2 대비 약 34점 상승)
-
LiveCodeBench: 29.7 (Gemma 2 대비 약 9점 상승)
# 구조 변화에 따른 성능 분석
-
로컬:글로벌 주의 비율 → 5:1이 성능 및 메모리 사용에서 최적임
-
슬라이딩 윈도우 크기 → 1024 토큰이 성능 저하 없이 메모리 효율성 유지
-
KV 캐시 메모리 절감 → 글로벌 전용 주의 대비 15% 감소
# 장문 문맥 지원 강화
- 훈련 시 32K 토큰에서 시작 → 이후 128K 토큰으로 스케일 업
-
RoPE 주파수 조정 → 성능 저하 없이 문맥 확장
# 시각 인코더 성능 평가
- 입력 해상도 증가 시 성능 향상:
-
256 → 896 해상도 시 성능 최대 20% 상승
-
Pan & Scan 기법 적용 시 성능 증가:
- DocVQA → +4.8%
- InfoVQA → +17.0%
# 메모리 및 프라이버시 보호
-
기억률(Memorization Rate) 감소:
- Gemma 3가 Gemma 2 대비 메모리 사용률 감소
- 개인 정보 유출 위험 낮음
# 책임, 안전, 보안
- Google의 안전 정책에 따라 유해 콘텐츠 방지:
- 아동 학대, 증오 발언, 개인 정보 유출 등 방지
- 강화된 강화 학습 및 RLHF 적용 → 유해 콘텐츠 생성 최소화
# 결론
- Gemma 3는 기존 Gemma 2 모델 대비 멀티모달, 다국어, 긴 문맥 성능에서 큰 향상
-
시각 이해 능력, 수학 및 코딩 성능 강화
-
메모리 사용 최적화로 성능과 효율성 모두 향상