DeepSeek-V3.2-Exp: 실험적 장기 컨텍스트 최적화 모델 공개

1 month ago 5

  • V3.1-Terminus를 기반으로, 긴 문맥 처리 효율성을 높이기 위한 DeepSeek Sparse Attention(희소 어텐션 메커니즘)을 도입한 실험적 모델
  • Sparse Attention은 세밀한 단위의 희소 연산을 지원해, 훈련 및 추론 효율성을 대폭 개선하면서도 출력 품질은 기존과 유사한 수준을 유지함
  • 주요 벤치마크에서 V3.1-Terminus와 성능이 유사하거나 일부 개선된 결과를 보였으며, 특히 코딩·수학 문제 해결 및 에이전트형 툴 사용 시 성과가 확인됨
  • 연구·활용을 위해 TileLang, DeepGEMM, FlashMLA 등 관련 커널이 함께 공개되어, 읽기 쉬운 설계 버전과 고성능 CUDA 커널 모두 제공됨
  • HuggingFace, SGLang, vLLM 등 다양한 환경에서 바로 실행할 수 있어, 차세대 효율적 트랜스포머 아키텍처 연구와 실무 적용의 기반이 될 전망임

소개

  • DeepSeek-V3.2-Exp는 V3.1-Terminus를 바탕으로 개발된 차세대 아키텍처 전 단계 모델
  • 핵심 특징은 긴 문맥에서 효율적인 추론과 학습을 가능케 하는 DeepSeek Sparse Attention(DSA) 적용
  • 목표는 계산 효율성 개선확장된 텍스트 시퀀스 처리의 최적화

주요 성과

  • DSA는 정교한 희소 어텐션을 최초로 실현해, 효율성을 높이면서도 모델 출력 품질은 유지함
  • 훈련 구성은 V3.1-Terminus와 동일하게 맞춰 성능 비교의 신뢰성을 확보함
  • 공공 벤치마크 결과:
    • Reasoning: MMLU-Pro(85.0 vs 85.0), AIME 2025(88.4 vs 89.3), Codeforces(2046 vs 2121)
    • Agentic Tool Use: BrowseComp(38.5 vs 40.1), SimpleQA(96.8 vs 97.1)
    • 전반적으로 대등하거나 약간의 개선이 확인됨

오픈소스 커널

  • TileLang: 연구 목적의 가독성 높은 커널 예제 제공
  • DeepGEMM: 고성능 CUDA 커널 및 인덱서 로짓 커널 공개
  • FlashMLA: Sparse attention 커널 제공

실행 방법

  • HuggingFace: 모델 변환 후 torchrun으로 인터랙티브 채팅 실행 가능
  • SGLang: Docker 이미지 제공 (H200, MI350, NPUs용)
  • vLLM: Day-0 지원, 공식 레시피 문서 제공

라이선스

  • MIT License 기반 공개

Read Entire Article