DeepSeek, FlashMLA 오픈소스 공개 (1 of 5)

2 weeks ago 6

  • Hopper GPU를 위한 효율적인 MLA 디코딩 커널
  • 가변 길이 시퀀스 서빙을 위해 최적화 됨
  • 현재 릴리즈 된 것
    • BF16
    • 64 블록사이즈 Paged kvcache
  • 벤치마크: CUDA 12.6을 사용하여 H800 SXM5에서 메모리 바운드 구성에서 최대 3000GB/s, 연산 바운드 구성에서 580 TFLOPS를 달성
  • FlashAttention 2&3cutlass 에서 영감을 받음
  • DeepSeek Open Infra 로 공개되는 5개 오픈소스 중 첫번째 임

Read Entire Article