-
Scout, Maverick, Behemoth 3가지 모델로 구성된 최초의 오픈 웨이트 기반 네이티브 멀티모달 모델
-
모든 모델은 이미지 + 텍스트를 이해하는 멀티모달
Llama 4 Scout
-
17B 활성 파라미터 + 16 Expert
-
10M 토큰 지원하는 초장문 문맥 처리 능력
- GPU 하나(H100)로 동작 가능한 효율적인 경량 모델
-
Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1을 초월하는 성능
- 이미지 정렬, 멀티 문서 요약, 대규모 코드베이스 분석 등에서 우수한 성능
Llama 4 Maverick
-
17B 활성 파라미터 + 128 Expert+ 400B 전체 파라미터
-
GPT-4o, Gemini 2.0 Flash보다 뛰어난 성능
- Reasoning, 코딩, 이미지 이해 등 전 영역에서 탁월
- ELO 점수 1417 기록 (LMArena 기준)
- 고성능 대비 효율적인 비용 구조
Llama 4 Behemoth (프리뷰)
-
288B 활성 파라미터 + 16 Expert+ 약 2T 전체 파라미터
- 아직 학습 중이나 GPT-4.5, Claude 3.7, Gemini 2.0 Pro를 능가하는 성능
-
Maverick 모델의 사전 학습에 교사 모델로 활용됨
# 기술적 특징
Mixture of Experts (MoE) 아키텍처
- 모든 파라미터를 사용하는 대신, 일부 전문가만 활성화하여 연산 효율 극대화
-
빠른 추론, 낮은 비용, 높은 품질의 학습 구조 구현
Native 멀티모달 & Early Fusion
- 텍스트와 비전 데이터를 초기부터 통합하여 공동 학습
- 이미지 최대 48장까지 입력 가능, 테스트는 최대 8장에서 성공적으로 수행
초장문 문맥 처리 (10M Tokens)
- Scout 모델은 iRoPE (interleaved Rotary Position Embedding) 구조로 '무한 문맥' 가능성 탐색 중
- 텍스트 및 코드에 대한 길이 일반화 성능 탁월
MetaP & FP8 학습 기법
- 고속/고효율 학습을 위한 새로운 하이퍼파라미터 튜닝 기술
- FP8 정밀도로 높은 FLOPs 활용률 확보 (Behemoth: 390 TFLOPs/GPU)
# 후처리 및 RL 훈련 전략
-
SFT → 온라인 RL → DPO의 세 단계 후처리 파이프라인 구성
- 쉬운 데이터는 제거하고, 중~상 난이도 프롬프트 중심으로 훈련
-
지속적 온라인 RL 전략 도입: 성능 향상 및 학습 효율 극대화
# 안전성과 윤리 고려
다층 보호 전략
-
사전/사후 학습 단계에서 데이터 필터링 및 검열
-
Llama Guard: 입력/출력 안전성 검사
-
Prompt Guard: 탈옥(Jailbreak), 주입 공격 탐지
-
CyberSecEval: 생성형 AI의 보안 리스크 평가 도구 제공
정량적 리스크 탐지 자동화
-
GOAT (Generative Offensive Agent Testing) 도입
- 중급 공격자 시나리오 시뮬레이션
- 자동화된 다중 턴 테스트로 리스크 조기 탐지
편향 제거 노력
- Llama 4는 Llama 3 대비 편향성 크게 개선
- 응답 거부율 7% → 2% 이하
- 응답 불균형 < 1%
- Grok 수준의 정치적 균형 응답 유지
# Llama 4 모델 활용 안내
- Scout, Maverick 모두 다운로드 및 활용 가능
-
Meta AI 서비스에 Llama 4 통합:
- WhatsApp, Messenger, Instagram DM, meta.ai
# 향후 일정
- 더 많은 기술 세부 사항과 비전을 소개할 LlamaCon 2025가 4월 29일 개최 예정