DSpark: Speculative decoding을 활용한 LLM 추론 가속화 [pdf]

1 week ago 12

Hacker News 의견들
  • DeepSeek는 한계를 넓히는 데서 그치지 않고, 성능 향상을 어떻게 달성했는지 설명하는 훌륭한 논문까지 공개하고 있음
    안타깝게도 미국 연구소들은 더 이상 이런 공개를 잘 하지 않고, 지금 AI에서 가장 흥미로운 작업은 중국 연구소들이 하고 있는 듯함

    • Google도 여전히 LLM 아키텍처 연구를 많이 공개하고 있음
      2022년에 LLM의 추측 디코딩을 소개했고[1], 올해는 Gemma 4 모델에서 추측 디코딩을 수행하는 코드도 공개함[2]

      [1] https://arxiv.org/abs/2211.17192

      [2] https://github.com/google-gemma/cookbook/blob/main/docs/mtp/...

    • 미국 AI 회사들은 막대한 투자금을 책임져야 하니, 평가가치를 정당화할 마법 같은 해자를 찾으려는 것 같음
      이런 최적화를 공개하면 경쟁 우위가 상당히 줄어들 것임

    • 어쩌면 필요에 의한 공개일 수도 있음
      미국 연구소들이 최전선에서 길을 개척하고 있으니, DeepSeek가 가진 것을 오픈소스로 공개해 경쟁장을 평평하게 만들려는 것 같다는 추측임

    • DeepSeek는 미국 연구소들이 투자자에게 돈을 벌어주기 위해 의존하는 성능 향상분을 상품화하고 있음

    • 이제 서구권도 중국인을 “독재 아래의 아주 나쁜 사람들”로만 보는 인식을 버릴 때가 됨

  • Hugging Face 모델이 이미 올라와 있고, 원래 모델에 추측 디코딩 모듈이 내장된 형태로 보이는데 꽤 멋짐

    Flash: https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark

    Pro: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark

    로컬 추론용 DwarfStar에도 들어갈지 기대됨
    antirez가 2비트 양자화를 공개한 뒤로 Flash 모델을 많이 써왔음

    • Qwen 27B에도 이게 적용될 가능성이 있을까?
  • 지금 느낌으로는 DeepSeek가 단순히 벤치마크 1위를 노리기보다 실제로 혁신하려는 거의 유일한 AI 회사 같음
    OpenAI, Anthropic, Google 같은 곳은 계속 혁신하기보다 서로 경쟁하는 데 더 치중하는 듯함

    • Moonshot(Kimi 개발사)과 Z.ai(GLM 개발사) 같은 다른 중국 연구소도 포함해야 한다고 봄
      이들도 혁신하고 있고 연구를 계속 공개적으로 공유하고 있음
      Moonshot 창업자는 Kimi를 지탱하는 기법을 설명하는 40분짜리 영상을 Twitter에 올리기도 한 것으로 알고 있음

    • 미국의 많은 회사들은 오래전부터 수단이 무엇이든 사용자를 붙잡는 것을 전략으로 삼아왔음
      품질과 혁신은 두 번째 요소이고, 시장을 장악하고 사용자를 가둔 뒤 규제와 로비에 영향력을 행사해 힘을 유지하려 함

    • 그 회사들도 혁신을 통해 서로 경쟁하고 있음
      혁신은 고객에게 더 큰 효용을 주지만, 기술은 공개되지 않을 뿐임
      영업비밀은 이유가 있어서 비밀임

      DeepSeek가 “가장 혁신적”으로 보이는 이유는 바깥에서 관찰 가능한 것이 그것이기 때문일 수 있음
      모두가 대중에게 사진을 공개하지 않는다고 해서, 공개된 모델들이 인구 전체에서 가장 예쁘다고 결론 내리는 것과 비슷한 착각임

    • 대형 연구소들은 이미 최소 1년 전부터 이런 걸 해오고 있었음

    • Qwen도 마찬가지임

  • DeepSeek v4 pro를 한 달째 Kilo Code에서 쓰고 있는데 훌륭함
    빠르고 안정적이고 컨텍스트 창이 크며 정말 저렴함
    이번 달에 토큰 15억 개를 썼는데 40달러가 들었고, 대부분 캐시된 것이긴 해도 여전히 싸다

    • omp에서 DeepSeek를 task와 quicktask 에이전트로, Sonnet을 나머지 용도로 쓰고 있음
      AI 지출이 크게 줄어서 하루 40달러에서 하루 10달러로 내려감
    • 어느 제공자를 썼는지 궁금함
      OpenRouter에서는 40달러를 금방 썼음
      왕복 대화가 많지 않았고 컨텍스트는 약 30만, 출력은 1만5천 줄 정도였음
      opencode를 쓰고 있었는데 전체 토큰 수를 보이게 할 수 있는지는 잘 모르겠음
    • Kilo를 Pi나 OpenCode와 비교해봤는지 궁금함
      둘은 익숙하지만 항상 대안을 찾고 있음
    • Claude Code Pro에서 토큰을 얼마나 썼는지 볼 방법이 있나?
  • 이게 2022년의 추측 디코딩보다 더 새롭거나 나은 것인가? https://arxiv.org/abs/2211.17192

    • 그 논문은 이 논문의 ‘introduction’과 ‘background’ 섹션에서 인용됨
      이 논문은 몇 가지 병목을 제거해 개선하는 내용임
    • DeepSeek 규모에서 추측이 낭비되는 검증 작업이 아니라 순수한 속도 향상으로 이어지도록, 초안 모델과 검증 정책을 개선하는 데 초점을 둔 것 같음
  • 시점이 우연은 아닌 듯함
    공개성과 강한 규제를 대비해 보여주는 것 같음

    • 중국 = 공개적, 미국 = 강한 규제라니 이상한 타임라인임
      다만 이건 Xi의 목표와 정렬되어 있기 때문에 가능한 일임
    • Anthropic에게 새 AI 모델의 위험성을 크게 떠드는 미디어 공세를 하라고 강요한 사람은 아무도 없음
      솔직히 자업자득임
  • 제목이 별로임
    논문 제목이 아니라 초록의 첫 줄을 가져온 것임
    LLM 추론용 추측 디코딩은 2022년에 이미 공개됐음: https://arxiv.org/abs/2211.17192

    이 논문은 추측 디코딩의 개선으로 보이지만 아직 읽어보지는 않음

  • 이름 때문에 처음에는 DGX Spark와 관련된 줄 알았음
    우연히도 최근 DGX Spark의 추론 성능을 개선하는 작업이 많이 있었고, MTP로 50~100% 속도 향상이 나왔으니 DSpark도 그 목적에 꽤 도움이 될 것 같음

  • 아마 이건 한동안 프로덕션에서 쓰이고 있었고, 한 달 전에 가격을 크게 낮출 수 있었던 이유 중 하나였을 것 같음

    • 맞음
      5장은 실제 배포를 다룸
      5.1에는 “DSpark draft models are co-deployed with the preview versions of DeepSeek-V4-Flash and DeepSeek-V4-Pro”라고 되어 있고, 5.4에는 “MTP-1 represents the former production setup, having been superseded by DSpark two weeks following the DeepSeek-V4-preview release”라고 되어 있음
    • Lookahead Sparse Attention도 큰 역할을 했을 것임
      메모리 사용량을 크게 줄여주기 때문임
    • 잘 짚었음
      가격을 75% 낮췄는데, 속도와 추론 최적화 이득과 정확히 맞아떨어지는 것 같음
  • 곧 사용 사례, 회사, 심지어 개인마다 고유한 추측 디코딩용 소형 모델이 매우 다양하게 존재하는 세상이 올 것 같음

    • 그렇게 되면 좋겠고, 하드웨어를 구하기 불가능해지지 않았으면 함

    • 맞음
      정교한 가드레일에 강하게 제약된 형태가 될 것임

      확실히 이 방향으로 가고 있음
      세상을 다 먹어치우려는 거대한 모델들은 그에 비해 수익 체감이 극심함

    • 최근 추측 디코딩 논문들을 분명 읽지 않은 것 같음
      이미 한동안 어떤 모델이든 다른 모델을 위해 추측에 사용할 수 있었음
      과거에 이를 막던 토큰화 문제가 해결됐음

Read Entire Article