DeepSeek v4

3 weeks ago 21
  • DeepSeek-V4-ProDeepSeek-V4-Flash는 CSA와 HCA를 교차 배치한 attention으로 장문 추론 비용을 크게 낮췄고, 1M 토큰 기준 단일 토큰 추론 FLOPs와 KV cache 크기를 DeepSeek-V3.2보다 큰 폭으로 줄임
  • 100만 토큰 컨텍스트를 지원하는 MoE 언어 모델 계열로, 기본 attention의 제곱 복잡도를 줄이기 위해 하이브리드 attention과 mHC 같은 구조 변경을 넣음
  • mHC는 residual mapping을 Birkhoff polytope 위로 제한해 깊은 층에서도 수치 안정성을 높이고, MoE 라우팅과 Muon optimizer까지 함께 바꿔 학습 효율과 표현력을 끌어올림
  • 공개 평가에서 DeepSeek-V4-Pro-Max는 지식, 추론, 장문 컨텍스트에서 선도 오픈소스 모델을 대체로 앞섰고, 추론 벤치마크 일부에서는 GPT-5.2와 Gemini-3.0-Pro보다 높은 성능을 냄
  • 프리트레이닝에 32T~33T 토큰을 사용한 뒤 두 단계 post-training으로 수학, 코딩, agent, instruction following 역량을 통합해, 초장문 입력과 복잡한 작업을 함께 다루는 기반을 만듦

서론

  • DeepSeek-V4 시리즈는 초장문 컨텍스트와 추론 과정에서 병목이 되는 기본 attention의 제곱 복잡도를 줄이기 위해 설계된 MoE 언어 모델 계열임
    • preview 버전으로 DeepSeek-V4-Pro는 1.6T 파라미터에 49B 활성화, DeepSeek-V4-Flash는 284B 파라미터에 13B 활성화 구성을 가짐
    • 두 모델 모두 100만 토큰 컨텍스트 길이를 지원함
  • 핵심 구조로 CSA와 HCA를 결합한 하이브리드 attention, mHC, Muon optimizer를 도입해 장문 효율, 표현력, 학습 안정성을 함께 끌어올림
  • 학습과 추론 인프라도 함께 손봐 MoE용 단일 fused kernel, TileLang, deterministic kernel library, FP4 quantization-aware training, tensor-level checkpointing, hybrid ZeRO, on-disk KV cache storage를 포함함
  • 장문 추론 효율은 DeepSeek-V3.2 대비 크게 낮아짐
    • 1M 토큰 컨텍스트에서 DeepSeek-V4-Pro는 단일 토큰 추론 FLOPs가 DeepSeek-V3.2의 27%, KV cache 크기는 10% 수준임
    • DeepSeek-V4-Flash는 같은 조건에서 단일 토큰 추론 FLOPs가 10%, KV cache 크기는 7% 수준까지 내려감
  • 프리트레이닝은 DeepSeek-V4-Flash에 32T 토큰, DeepSeek-V4-Pro에 33T 토큰을 사용했고, 이후 두 단계 post-training으로 도메인별 능력을 통합함
  • 모델 체크포인트는 Hugging Face 컬렉션에서 제공됨

핵심 평가 결과

  • DeepSeek-V4-Pro-Max는 DeepSeek-V4-Pro의 최대 추론 노력 모드로, 공개 모델 기준 최고 수준 성능에 위치함
  • 지식

    • 광범위한 세계 지식 평가에서 SimpleQAChinese-SimpleQA 기준으로 선도적인 오픈소스 모델보다 크게 앞섬
    • 교육 지식 평가인 MMLU-Pro, HLE, GPQA에서는 오픈소스 경쟁 모델보다 소폭 우위에 있음
    • 지식 기반 평가는 Gemini-3.1-Pro보다 뒤처지지만, 격차는 크게 줄어든 상태임
  • 추론

    • 추론 토큰 확장으로 표준 추론 벤치마크에서 GPT-5.2Gemini-3.0-Pro보다 우수한 성능을 냄
    • GPT-5.4Gemini-3.1-Pro보다는 소폭 낮음
    • 문서에서는 frontier 모델 대비 발전 궤적이 약 3~6개월 뒤에 있다고 적음
    • DeepSeek-V4-Flash-Max는 복잡한 추론 작업에서 GPT-5.2와 Gemini-3.0-Pro에 준하는 성능을 내며 비용 효율성이 높음
  • 에이전트

    • 공개 벤치마크에서는 Kimi-K2.6, GLM-5.1 같은 선도 오픈소스 모델과 비슷한 수준임
    • frontier closed model보다는 약간 낮음
    • 내부 평가에서는 Claude Sonnet 4.5를 넘고 Opus 4.5에 근접함
  • 장문 컨텍스트

    • 1M 토큰 컨텍스트 창에서 synthetic과 실제 사용 사례 모두 강한 성능을 냄
    • 학술 벤치마크에서는 Gemini-3.1-Pro도 넘어섬
  • DeepSeek-V4-Pro와 DeepSeek-V4-Flash 비교

    • DeepSeek-V4-Flash-Max는 더 작은 파라미터 규모 때문에 지식 평가에서는 더 낮은 성능을 보임
    • 더 큰 thinking budget을 주면 추론 작업에서는 Pro와 비슷한 결과를 냄
    • agent 평가에서는 몇몇 벤치마크에서 Pro-Max와 맞먹지만, 더 복잡하고 난도 높은 작업에서는 뒤처짐

아키텍처

  • 전체적으로 Transformer 구조와 MTP 모듈을 유지하면서 DeepSeek-V3 대비 세 가지 주요 업그레이드를 넣음
    • mHC로 residual connection을 강화함
    • CSA와 HCA의 하이브리드 attention으로 장문 효율을 크게 높임
    • optimizer로 Muon을 채택함
  • MoE 구성은 DeepSeekMoE를 계속 사용하며, MTP 설정도 DeepSeek-V3와 동일하게 유지함
  • 명시되지 않은 다른 세부 사항은 DeepSeek-V3 설정을 따름

DeepSeek-V3에서 이어받은 설계

  • Mixture-of-Experts

    • FFN에는 DeepSeekMoE 패러다임을 사용하며, 세분화된 routed expert와 shared expert를 함께 둠
    • DeepSeek-V3와 달리 affinity score 계산 activation function을 Sigmoid에서 Sqrt(Softplus) 로 바꿈
    • load balancing에는 auxiliary-loss-free 전략을 사용하고, 개별 시퀀스 안의 극단적 불균형을 막는 sequence-wise balance loss를 약하게 추가함
    • DeepSeek-V4에서는 routing target node 수에 대한 제약을 제거하고, 학습 효율을 유지하도록 parallelism 전략을 다시 설계함
    • 초기 몇 개 Transformer block의 dense FFN은 Hash routing을 쓰는 MoE layer로 교체함
      • Hash routing은 입력 token ID에 대한 사전 정의된 해시 함수로 각 토큰의 target expert를 정함
  • Multi-Token Prediction

    • MTP 모듈과 목표 함수를 DeepSeek-V3와 동일하게 유지함
    • DeepSeek-V3에서 검증된 전략이라 변경 없이 그대로 채택함

Manifold-Constrained Hyper-Connections

  • mHC는 인접한 Transformer block 사이의 기존 residual connection을 강화하는 구조임
  • 일반적인 Hyper-Connections보다 residual mapping을 특정 manifold에 제한해, 층이 깊어질 때 신호 전달 안정성을 높이면서 표현력은 유지하도록 설계됨
  • 표준 Hyper-Connections

    • 표준 HC는 residual stream의 너비를 nhc 배로 확장함
    • residual state는 각 층에서 입력 mapping A_l, residual transformation B_l, 출력 mapping C_l을 통해 갱신됨
    • 실제 layer input 차원은 여전히 d 차원이라, residual 폭 확장이 내부 layer 설계를 바꾸지는 않음
    • nhc가 hidden size d보다 훨씬 작아 계산 오버헤드는 작음
    • 다만 여러 층을 쌓으면 수치적 불안정성이 자주 나타나 HC 확장을 가로막는다고 적음
  • manifold 제약 residual mapping

    • mHC의 핵심은 residual mapping matrix B_ldoubly stochastic matrix의 manifold인 Birkhoff polytope 위로 제한하는 점임
    • 이 제약으로 spectral norm이 1 이하로 묶여 residual transformation이 non-expansive가 됨
    • 그 결과 forward pass와 backpropagation 모두에서 수치 안정성이 높아짐
    • 집합 M이 곱셈에 대해 닫혀 있어 깊은 mHC 스택에서도 안정성을 유지함
    • 입력 변환 A_l과 출력 변환 C_lSigmoid를 통해 non-negative이면서 bounded가 되도록 제한해 signal cancellation 위험을 줄임
  • 동적 파라미터화

    • 세 개의 선형 mapping 파라미터는 입력 의존 동적 성분입력 비의존 정적 성분으로 나뉘어 생성됨
    • 입력 X_l은 flatten 후 RMSNorm을 거침
    • 이후 Wpre, Wres, Wpost와 정적 bias Spre, Sres, Spost, 작은 값으로 초기화된 gating factor αpre, αres, αpost를 사용해 비제약 raw parameter를 만듦
  • 제약 적용

    • 입력 mapping A_l과 출력 mapping C_l에는 Sigmoid를 적용해 non-negativity와 boundedness를 보장함
    • residual mapping B_lSinkhorn-Knopp 알고리듬으로 doubly stochastic manifold에 투영함
      • 먼저 exp(˜B_l) 로 positivity를 확보함
      • 이후 row normalization과 column normalization을 반복 적용함
      • 실용적인 반복 횟수로 tmax = 20을 사용함

CSA와 HCA를 결합한 하이브리드 attention

  • 컨텍스트 길이가 극단적으로 커지면 attention이 모델의 지배적 계산 병목이 되며, DeepSeek-V4는 이를 위해 CSAHCA 두 가지 효율적 attention 구조를 설계함
  • 두 구조를 교차 배치한 하이브리드 구성으로 묶어 장문 텍스트에서 attention 계산 비용을 크게 줄임
  • CSA는 압축과 sparse attention을 함께 사용함
    • m 토큰의 KV cache를 1개 entry로 압축함
    • 그 뒤 각 query token이 k개 압축 KV entry만 보도록 DeepSeek Sparse Attention을 적용함
  • HCA는 더 강한 압축을 목표로 하며, 매 m' 토큰의 KV cache를 1개 entry로 합침
    • 문서에서는 m' ≫ m이라고 적음
  • 이 하이브리드 구조로 DeepSeek-V4 시리즈의 장문 효율이 크게 높아져, 1M 토큰 컨텍스트를 실제 운용 가능한 범위로 만듦
  • 구현 세부 사항은 open-source inference 구현로 공개함

Compressed Sparse Attention

  • CSA는 먼저 KV cache를 압축한 뒤 그 위에서 sparse attention을 수행하는 구조임
  • Figure 3에는 Compressed KV Entries, Lightning Indexer, Top-k Selector, Sliding Window KV Entries가 결합된 구성이 나타남
  • 압축된 Key-Value entry

    • 입력 hidden state H ∈ R^{n×d} 에서 두 계열의 KV entry C_a, C_b와 이에 대응하는 compression weight Z_a, Z_b를 계산함
    • m개 KV entry를 compression weight와 학습 가능한 positional bias B_a, B_b로 하나의 압축 entry로 합쳐 CComp를 만듦
    • 각 압축 entry는 총 2m개 요소에 대해 row 방향 softmax 정규화를 사용함
    • 첫 블록인 i = 0일 때는 이전 구간의 Z_b는 음의 무한대로, C_b는 0으로 padding함
    • CComp_i는 2m개의 KV entry에서 만들어지지만, 인접 블록 사이에 일부 index가 겹쳐 실제로는 시퀀스 길이를 1/m 배로 줄이는 효과를 냄
  • sparse selection용 Lightning Indexer

    • 압축된 KV entry를 얻은 뒤 CSA는 DSA 전략으로 top-k 압축 KV entry를 고름
    • 먼저 CComp와 같은 압축 연산으로 압축 indexer key KIComp를 만듦
    • query token t에 대해 저랭크 방식으로 여러 개의 indexer query head를 생성함
    • 각 이전 압축 블록 s에 대한 index score는 head별 weight와 ReLU(q · K) 항을 합산해 계산함
    • 각 query token은 Top-k selector로 고른 일부 압축 KV entry만 이후 핵심 attention에 사용함
    • Figure 3 설명대로, 선택된 압축 KV entry에 더해 작은 sliding window KV entry 집합을 함께 붙여 지역적 세밀 의존성을 보강함

효율 수치와 하드웨어 관련 사항

  • Figure 1 오른쪽은 DeepSeek-V3.2, DeepSeek-V4-Pro, DeepSeek-V4-Flash의 단일 토큰 추론 FLOPs와 누적 KV cache 크기 추정치를 비교함
  • DeepSeek-V4-Pro는 더 많은 활성 파라미터를 가지면서도 1M 토큰 컨텍스트에서 DeepSeek-V3.2 대비 훨씬 낮은 비용으로 동작함
  • DeepSeek-V4-Flash는 활성 파라미터 수가 더 적어 효율을 한층 더 밀어붙임
  • DeepSeek-V4 시리즈의 routed expert 파라미터는 FP4 precision을 사용함
    • 현재 하드웨어에서는 FP4 × FP8 연산의 peak FLOPs가 FP8 × FP8과 같음
    • 문서에는 미래 하드웨어에서 이 연산이 이론적으로 1/3 더 효율적으로 구현될 수 있다고 적음
    • 그렇게 되면 DeepSeek-V4 시리즈의 효율이 더 높아질 수 있음

프리트레이닝과 기본 모델 성능

  • DeepSeek-V4-Flash는 32T 토큰, DeepSeek-V4-Pro는 33T 토큰으로 프리트레이닝함
  • 프리트레이닝 이후 두 모델 모두 1M 길이 컨텍스트를 기본적으로 그리고 효율적으로 지원함
  • 내부 평가에서 DeepSeek-V4-Flash-Base는 더 나은 파라미터 효율 설계로 다수 벤치마크에서 DeepSeek-V3.2-Base를 이미 넘어섬
  • DeepSeek-V4-Pro-Base는 이 우위를 더 확장해 DeepSeek foundation model 가운데 새로운 성능 기준을 세움
    • 추론
    • 코딩
    • 장문 컨텍스트
    • 세계 지식 작업 전반에서 포괄적 우위를 가짐

포스트트레이닝 파이프라인

  • DeepSeek-V4 시리즈의 post-training은 두 단계 패러다임으로 구성됨
    • 먼저 도메인별 expert를 독립적으로 육성함
    • 이후 on-policy distillation으로 단일 통합 모델로 합침
  • specialist training

    • 대상 도메인으로 수학, 코딩, agent, instruction following을 예시로 듦
    • 각 도메인마다 별도의 expert model을 독립적으로 학습함
    • base model은 먼저 고품질 도메인 특화 데이터로 SFT를 거쳐 기초 능력을 세움
    • 그 뒤 GRPO를 사용하는 RL을 적용해 도메인별 성공 기준에 맞춘 reward model로 행동을 추가 최적화함
    • 이 단계 결과로 각 분야에서 강한 specialized expert 집합이 만들어짐
  • on-policy distillation

    • 분리된 전문성을 하나의 모델에 통합하기 위해 unified model을 student로 두고 학습함
    • student는 teacher model들을 바탕으로 reverse KL loss를 최적화하도록 학습됨

공개 링크

Read Entire Article