DeepSeek v4

3 weeks ago 21

DeepSeek-V4-Pro와 DeepSeek-V4-Flash는 CSA와 HCA를 교차 배치한 attention으로 장문 추론 비용을 크게 낮췄고, 1M 토큰 기준 단일 토큰 추론 FLOPs와 KV cache 크기를 DeepSeek-V3.2보다 큰 폭으로 줄임
100만 토큰 컨텍스트를 지원하는 MoE 언어 모델 계열로, 기본 attention의 제곱 복잡도를 줄이기 위해 하이브리드 attention과 mHC 같은 구조 변경을 넣음
mHC는 residual mapping을 Birkhoff polytope 위로 제한해 깊은 층에서도 수치 안정성을 높이고, MoE 라우팅과 Muon optimizer까지 함께 바꿔 학습 효율과 표현력을 끌어올림
공개 평가에서 DeepSeek-V4-Pro-Max는 지식, 추론, 장문 컨텍스트에서 선도 오픈소스 모델을 대체로 앞섰고, 추론 벤치마크 일부에서는 GPT-5.2와 Gemini-3.0-Pro보다 높은 성능을 냄
프리트레이닝에 32T~33T 토큰을 사용한 뒤 두 단계 post-training으로 수학, 코딩, agent, instruction following 역량을 통합해, 초장문 입력과 복잡한 작업을 함께 다루는 기반을 만듦

서론

DeepSeek-V4 시리즈는 초장문 컨텍스트와 추론 과정에서 병목이 되는 기본 attention의 제곱 복잡도를 줄이기 위해 설계된 MoE 언어 모델 계열임
- preview 버전으로 DeepSeek-V4-Pro는 1.6T 파라미터에 49B 활성화, DeepSeek-V4-Flash는 284B 파라미터에 13B 활성화 구성을 가짐
- 두 모델 모두 100만 토큰 컨텍스트 길이를 지원함
핵심 구조로 CSA와 HCA를 결합한 하이브리드 attention, mHC, Muon optimizer를 도입해 장문 효율, 표현력, 학습 안정성을 함께 끌어올림
학습과 추론 인프라도 함께 손봐 MoE용 단일 fused kernel, TileLang, deterministic kernel library, FP4 quantization-aware training, tensor-level checkpointing, hybrid ZeRO, on-disk KV cache storage를 포함함
장문 추론 효율은 DeepSeek-V3.2 대비 크게 낮아짐
- 1M 토큰 컨텍스트에서 DeepSeek-V4-Pro는 단일 토큰 추론 FLOPs가 DeepSeek-V3.2의 27%, KV cache 크기는 10% 수준임
- DeepSeek-V4-Flash는 같은 조건에서 단일 토큰 추론 FLOPs가 10%, KV cache 크기는 7% 수준까지 내려감
프리트레이닝은 DeepSeek-V4-Flash에 32T 토큰, DeepSeek-V4-Pro에 33T 토큰을 사용했고, 이후 두 단계 post-training으로 도메인별 능력을 통합함
모델 체크포인트는 Hugging Face 컬렉션에서 제공됨

핵심 평가 결과

DeepSeek-V4-Pro-Max는 DeepSeek-V4-Pro의 최대 추론 노력 모드로, 공개 모델 기준 최고 수준 성능에 위치함
지식
- 광범위한 세계 지식 평가에서 SimpleQA와 Chinese-SimpleQA 기준으로 선도적인 오픈소스 모델보다 크게 앞섬
- 교육 지식 평가인 MMLU-Pro, HLE, GPQA에서는 오픈소스 경쟁 모델보다 소폭 우위에 있음
- 지식 기반 평가는 Gemini-3.1-Pro보다 뒤처지지만, 격차는 크게 줄어든 상태임
추론
- 추론 토큰 확장으로 표준 추론 벤치마크에서 GPT-5.2와 Gemini-3.0-Pro보다 우수한 성능을 냄
- GPT-5.4와 Gemini-3.1-Pro보다는 소폭 낮음
- 문서에서는 frontier 모델 대비 발전 궤적이 약 3~6개월 뒤에 있다고 적음
- DeepSeek-V4-Flash-Max는 복잡한 추론 작업에서 GPT-5.2와 Gemini-3.0-Pro에 준하는 성능을 내며 비용 효율성이 높음
에이전트
- 공개 벤치마크에서는 Kimi-K2.6, GLM-5.1 같은 선도 오픈소스 모델과 비슷한 수준임
- frontier closed model보다는 약간 낮음
- 내부 평가에서는 Claude Sonnet 4.5를 넘고 Opus 4.5에 근접함
장문 컨텍스트
- 1M 토큰 컨텍스트 창에서 synthetic과 실제 사용 사례 모두 강한 성능을 냄
- 학술 벤치마크에서는 Gemini-3.1-Pro도 넘어섬
DeepSeek-V4-Pro와 DeepSeek-V4-Flash 비교
- DeepSeek-V4-Flash-Max는 더 작은 파라미터 규모 때문에 지식 평가에서는 더 낮은 성능을 보임
- 더 큰 thinking budget을 주면 추론 작업에서는 Pro와 비슷한 결과를 냄
- agent 평가에서는 몇몇 벤치마크에서 Pro-Max와 맞먹지만, 더 복잡하고 난도 높은 작업에서는 뒤처짐

아키텍처

전체적으로 Transformer 구조와 MTP 모듈을 유지하면서 DeepSeek-V3 대비 세 가지 주요 업그레이드를 넣음
- mHC로 residual connection을 강화함
- CSA와 HCA의 하이브리드 attention으로 장문 효율을 크게 높임
- optimizer로 Muon을 채택함
MoE 구성은 DeepSeekMoE를 계속 사용하며, MTP 설정도 DeepSeek-V3와 동일하게 유지함
명시되지 않은 다른 세부 사항은 DeepSeek-V3 설정을 따름

DeepSeek-V3에서 이어받은 설계

Mixture-of-Experts
- FFN에는 DeepSeekMoE 패러다임을 사용하며, 세분화된 routed expert와 shared expert를 함께 둠
- DeepSeek-V3와 달리 affinity score 계산 activation function을 Sigmoid에서 Sqrt(Softplus) 로 바꿈
- load balancing에는 auxiliary-loss-free 전략을 사용하고, 개별 시퀀스 안의 극단적 불균형을 막는 sequence-wise balance loss를 약하게 추가함
- DeepSeek-V4에서는 routing target node 수에 대한 제약을 제거하고, 학습 효율을 유지하도록 parallelism 전략을 다시 설계함
- 초기 몇 개 Transformer block의 dense FFN은 Hash routing을 쓰는 MoE layer로 교체함
  - Hash routing은 입력 token ID에 대한 사전 정의된 해시 함수로 각 토큰의 target expert를 정함
Multi-Token Prediction
- MTP 모듈과 목표 함수를 DeepSeek-V3와 동일하게 유지함
- DeepSeek-V3에서 검증된 전략이라 변경 없이 그대로 채택함

Manifold-Constrained Hyper-Connections

mHC는 인접한 Transformer block 사이의 기존 residual connection을 강화하는 구조임
일반적인 Hyper-Connections보다 residual mapping을 특정 manifold에 제한해, 층이 깊어질 때 신호 전달 안정성을 높이면서 표현력은 유지하도록 설계됨
표준 Hyper-Connections
- 표준 HC는 residual stream의 너비를 nhc 배로 확장함
- residual state는 각 층에서 입력 mapping A_l, residual transformation B_l, 출력 mapping C_l을 통해 갱신됨
- 실제 layer input 차원은 여전히 d 차원이라, residual 폭 확장이 내부 layer 설계를 바꾸지는 않음
- nhc가 hidden size d보다 훨씬 작아 계산 오버헤드는 작음
- 다만 여러 층을 쌓으면 수치적 불안정성이 자주 나타나 HC 확장을 가로막는다고 적음
manifold 제약 residual mapping
- mHC의 핵심은 residual mapping matrix B_l를 doubly stochastic matrix의 manifold인 Birkhoff polytope 위로 제한하는 점임
- 이 제약으로 spectral norm이 1 이하로 묶여 residual transformation이 non-expansive가 됨
- 그 결과 forward pass와 backpropagation 모두에서 수치 안정성이 높아짐
- 집합 M이 곱셈에 대해 닫혀 있어 깊은 mHC 스택에서도 안정성을 유지함
- 입력 변환 A_l과 출력 변환 C_l도 Sigmoid를 통해 non-negative이면서 bounded가 되도록 제한해 signal cancellation 위험을 줄임
동적 파라미터화
- 세 개의 선형 mapping 파라미터는 입력 의존 동적 성분과 입력 비의존 정적 성분으로 나뉘어 생성됨
- 입력 X_l은 flatten 후 RMSNorm을 거침
- 이후 Wpre, Wres, Wpost와 정적 bias Spre, Sres, Spost, 작은 값으로 초기화된 gating factor αpre, αres, αpost를 사용해 비제약 raw parameter를 만듦
제약 적용
- 입력 mapping A_l과 출력 mapping C_l에는 Sigmoid를 적용해 non-negativity와 boundedness를 보장함
- residual mapping B_l은 Sinkhorn-Knopp 알고리듬으로 doubly stochastic manifold에 투영함
  - 먼저 exp(˜B_l) 로 positivity를 확보함
  - 이후 row normalization과 column normalization을 반복 적용함
  - 실용적인 반복 횟수로 tmax = 20을 사용함

CSA와 HCA를 결합한 하이브리드 attention

컨텍스트 길이가 극단적으로 커지면 attention이 모델의 지배적 계산 병목이 되며, DeepSeek-V4는 이를 위해 CSA와 HCA 두 가지 효율적 attention 구조를 설계함
두 구조를 교차 배치한 하이브리드 구성으로 묶어 장문 텍스트에서 attention 계산 비용을 크게 줄임
CSA는 압축과 sparse attention을 함께 사용함
- 매 m 토큰의 KV cache를 1개 entry로 압축함
- 그 뒤 각 query token이 k개 압축 KV entry만 보도록 DeepSeek Sparse Attention을 적용함
HCA는 더 강한 압축을 목표로 하며, 매 m' 토큰의 KV cache를 1개 entry로 합침
- 문서에서는 m' ≫ m이라고 적음
이 하이브리드 구조로 DeepSeek-V4 시리즈의 장문 효율이 크게 높아져, 1M 토큰 컨텍스트를 실제 운용 가능한 범위로 만듦
구현 세부 사항은 open-source inference 구현로 공개함

Compressed Sparse Attention

CSA는 먼저 KV cache를 압축한 뒤 그 위에서 sparse attention을 수행하는 구조임
Figure 3에는 Compressed KV Entries, Lightning Indexer, Top-k Selector, Sliding Window KV Entries가 결합된 구성이 나타남
압축된 Key-Value entry
- 입력 hidden state H ∈ R^{n×d} 에서 두 계열의 KV entry C_a, C_b와 이에 대응하는 compression weight Z_a, Z_b를 계산함
- 각 m개 KV entry를 compression weight와 학습 가능한 positional bias B_a, B_b로 하나의 압축 entry로 합쳐 CComp를 만듦
- 각 압축 entry는 총 2m개 요소에 대해 row 방향 softmax 정규화를 사용함
- 첫 블록인 i = 0일 때는 이전 구간의 Z_b는 음의 무한대로, C_b는 0으로 padding함
- 각 CComp_i는 2m개의 KV entry에서 만들어지지만, 인접 블록 사이에 일부 index가 겹쳐 실제로는 시퀀스 길이를 1/m 배로 줄이는 효과를 냄
sparse selection용 Lightning Indexer
- 압축된 KV entry를 얻은 뒤 CSA는 DSA 전략으로 top-k 압축 KV entry를 고름
- 먼저 CComp와 같은 압축 연산으로 압축 indexer key KIComp를 만듦
- query token t에 대해 저랭크 방식으로 여러 개의 indexer query head를 생성함
- 각 이전 압축 블록 s에 대한 index score는 head별 weight와 ReLU(q · K) 항을 합산해 계산함
- 각 query token은 Top-k selector로 고른 일부 압축 KV entry만 이후 핵심 attention에 사용함
- Figure 3 설명대로, 선택된 압축 KV entry에 더해 작은 sliding window KV entry 집합을 함께 붙여 지역적 세밀 의존성을 보강함

효율 수치와 하드웨어 관련 사항

Figure 1 오른쪽은 DeepSeek-V3.2, DeepSeek-V4-Pro, DeepSeek-V4-Flash의 단일 토큰 추론 FLOPs와 누적 KV cache 크기 추정치를 비교함
DeepSeek-V4-Pro는 더 많은 활성 파라미터를 가지면서도 1M 토큰 컨텍스트에서 DeepSeek-V3.2 대비 훨씬 낮은 비용으로 동작함
DeepSeek-V4-Flash는 활성 파라미터 수가 더 적어 효율을 한층 더 밀어붙임
DeepSeek-V4 시리즈의 routed expert 파라미터는 FP4 precision을 사용함
- 현재 하드웨어에서는 FP4 × FP8 연산의 peak FLOPs가 FP8 × FP8과 같음
- 문서에는 미래 하드웨어에서 이 연산이 이론적으로 1/3 더 효율적으로 구현될 수 있다고 적음
- 그렇게 되면 DeepSeek-V4 시리즈의 효율이 더 높아질 수 있음

프리트레이닝과 기본 모델 성능

DeepSeek-V4-Flash는 32T 토큰, DeepSeek-V4-Pro는 33T 토큰으로 프리트레이닝함
프리트레이닝 이후 두 모델 모두 1M 길이 컨텍스트를 기본적으로 그리고 효율적으로 지원함
내부 평가에서 DeepSeek-V4-Flash-Base는 더 나은 파라미터 효율 설계로 다수 벤치마크에서 DeepSeek-V3.2-Base를 이미 넘어섬
DeepSeek-V4-Pro-Base는 이 우위를 더 확장해 DeepSeek foundation model 가운데 새로운 성능 기준을 세움
- 추론
- 코딩
- 장문 컨텍스트
- 세계 지식 작업 전반에서 포괄적 우위를 가짐

포스트트레이닝 파이프라인

DeepSeek-V4 시리즈의 post-training은 두 단계 패러다임으로 구성됨
- 먼저 도메인별 expert를 독립적으로 육성함
- 이후 on-policy distillation으로 단일 통합 모델로 합침
specialist training
- 대상 도메인으로 수학, 코딩, agent, instruction following을 예시로 듦
- 각 도메인마다 별도의 expert model을 독립적으로 학습함
- base model은 먼저 고품질 도메인 특화 데이터로 SFT를 거쳐 기초 능력을 세움
- 그 뒤 GRPO를 사용하는 RL을 적용해 도메인별 성공 기준에 맞춘 reward model로 행동을 추가 최적화함
- 이 단계 결과로 각 분야에서 강한 specialized expert 집합이 만들어짐
on-policy distillation
- 분리된 전문성을 하나의 모델에 통합하기 위해 unified model을 student로 두고 학습함
- student는 teacher model들을 바탕으로 reverse KL loss를 최적화하도록 학습됨