-
V3.1-Terminus를 기반으로, 긴 문맥 처리 효율성을 높이기 위한 DeepSeek Sparse Attention(희소 어텐션 메커니즘)을 도입한 실험적 모델
- Sparse Attention은 세밀한 단위의 희소 연산을 지원해, 훈련 및 추론 효율성을 대폭 개선하면서도 출력 품질은 기존과 유사한 수준을 유지함
- 주요 벤치마크에서 V3.1-Terminus와 성능이 유사하거나 일부 개선된 결과를 보였으며, 특히 코딩·수학 문제 해결 및 에이전트형 툴 사용 시 성과가 확인됨
- 연구·활용을 위해 TileLang, DeepGEMM, FlashMLA 등 관련 커널이 함께 공개되어, 읽기 쉬운 설계 버전과 고성능 CUDA 커널 모두 제공됨
- HuggingFace, SGLang, vLLM 등 다양한 환경에서 바로 실행할 수 있어, 차세대 효율적 트랜스포머 아키텍처 연구와 실무 적용의 기반이 될 전망임
소개
- DeepSeek-V3.2-Exp는 V3.1-Terminus를 바탕으로 개발된 차세대 아키텍처 전 단계 모델임
- 핵심 특징은 긴 문맥에서 효율적인 추론과 학습을 가능케 하는 DeepSeek Sparse Attention(DSA) 적용
- 목표는 계산 효율성 개선과 확장된 텍스트 시퀀스 처리의 최적화
주요 성과
- DSA는 정교한 희소 어텐션을 최초로 실현해, 효율성을 높이면서도 모델 출력 품질은 유지함
- 훈련 구성은 V3.1-Terminus와 동일하게 맞춰 성능 비교의 신뢰성을 확보함
- 공공 벤치마크 결과:
- Reasoning: MMLU-Pro(85.0 vs 85.0), AIME 2025(88.4 vs 89.3), Codeforces(2046 vs 2121)
- Agentic Tool Use: BrowseComp(38.5 vs 40.1), SimpleQA(96.8 vs 97.1)
- 전반적으로 대등하거나 약간의 개선이 확인됨
오픈소스 커널
-
TileLang: 연구 목적의 가독성 높은 커널 예제 제공
-
DeepGEMM: 고성능 CUDA 커널 및 인덱서 로짓 커널 공개
-
FlashMLA: Sparse attention 커널 제공
실행 방법
-
HuggingFace: 모델 변환 후 torchrun으로 인터랙티브 채팅 실행 가능
-
SGLang: Docker 이미지 제공 (H200, MI350, NPUs용)
-
vLLM: Day-0 지원, 공식 레시피 문서 제공
라이선스