- LG AI Research에서 개발한 새로운 Reasoning AI 모델, EXAONE Deep 공개
- Agentic AI 시대로의 전환에 필수적인 고성능 추론 모델
- 수학, 과학, 코딩 분야에서 뛰어난 추론 능력 입증
- 주요 특징:
-
수학: 고난도 수학 벤치마크에서 경쟁 모델 대비 뛰어난 성능 (더 작은 모델 크기로 동등 성능 달성)
-
과학 & 코딩: 주요 벤치마크에서 1위 달성 (7.8B 및 2.4B 모델)
-
MMLU: 국내 모델 중 최고 성능 달성 (32B 모델)
- Epoch AI의 주목할 만한 AI 모델에 등재되어 성능 검증됨 (EXAONE 3.5에 이어 엑사원 모델로는 두 번째)
수학 분야에서의 뛰어난 성능
- 모든 EXAONE Deep 모델(32B, 7.8B, 2.4B)이 2025학년도 대학수학능력시험 수학 영역에서 최고 점수 획득
-
EXAONE Deep 32B:
- 수능 수학 94.5점, AIME 2024 90.0점 기록
- AIME 2025에서 DeepSeek-R1 (671B) 모델과 동등한 성능
- 특히 고난도 벤치마크인 AIME에서 뛰어난 성능을 보이며 학습 효율성과 비용 효율성 입증
-
EXAONE Deep 7.8B & 2.4B:
- 각 경량 모델 및 온디바이스 모델 카테고리에서 주요 벤치마크 1위
- 7.8B 모델: MATH-500 94.8점, AIME 2025 59.6점
- 2.4B 모델: MATH-500 92.3점, AIME 2024 47.9점
- 주요 수학 벤치마크:
- CSAT (대학수학능력시험)
- AIME (American Invitational Mathematics Examination)
- MATH-500
과학 및 코딩 분야에서의 탁월한 전문성
- 과학 및 코딩 분야에서도 경쟁 모델 대비 우수한 성능 입증
-
EXAONE Deep 32B:
- GPQA Diamond 테스트 66.1점 (PhD 수준의 과학 문제 해결 능력 평가)
- LiveCodeBench 59.5점 (코딩 능력 평가), 유사 규모 Reasoning AI 모델 능가
- 전문 지식 요구 분야에서도 높은 활용 가능성 시사
-
EXAONE Deep 7.8B & 2.4B:
- GPQA Diamond 및 LiveCodeBench에서 1위 달성
- EXAONE 3.5 2.4B 모델에 이어 경량/온디바이스 모델 분야에서 글로벌 선도 모델로 자리매김
- 주요 과학 및 코딩 벤치마크:
- GPQA Diamond
- LiveCodeBench