DeepSeek-V3.2-Exp: 실험적 장기 컨텍스트 최적화 모델 공개

1 month ago 5

V3.1-Terminus를 기반으로, 긴 문맥 처리 효율성을 높이기 위한 DeepSeek Sparse Attention(희소 어텐션 메커니즘)을 도입한 실험적 모델
Sparse Attention은 세밀한 단위의 희소 연산을 지원해, 훈련 및 추론 효율성을 대폭 개선하면서도 출력 품질은 기존과 유사한 수준을 유지함
주요 벤치마크에서 V3.1-Terminus와 성능이 유사하거나 일부 개선된 결과를 보였으며, 특히 코딩·수학 문제 해결 및 에이전트형 툴 사용 시 성과가 확인됨
연구·활용을 위해 TileLang, DeepGEMM, FlashMLA 등 관련 커널이 함께 공개되어, 읽기 쉬운 설계 버전과 고성능 CUDA 커널 모두 제공됨
HuggingFace, SGLang, vLLM 등 다양한 환경에서 바로 실행할 수 있어, 차세대 효율적 트랜스포머 아키텍처 연구와 실무 적용의 기반이 될 전망임

소개

DSA는 정교한 희소 어텐션을 최초로 실현해, 효율성을 높이면서도 모델 출력 품질은 유지함
훈련 구성은 V3.1-Terminus와 동일하게 맞춰 성능 비교의 신뢰성을 확보함
공공 벤치마크 결과:
- Reasoning: MMLU-Pro(85.0 vs 85.0), AIME 2025(88.4 vs 89.3), Codeforces(2046 vs 2121)
- Agentic Tool Use: BrowseComp(38.5 vs 40.1), SimpleQA(96.8 vs 97.1)
- 전반적으로 대등하거나 약간의 개선이 확인됨