DSpark: Speculative decoding을 활용한 LLM 추론 가속화 [pdf]

1 week ago 12

Hacker News 의견들

DeepSeek는 한계를 넓히는 데서 그치지 않고, 성능 향상을 어떻게 달성했는지 설명하는 훌륭한 논문까지 공개하고 있음
안타깝게도 미국 연구소들은 더 이상 이런 공개를 잘 하지 않고, 지금 AI에서 가장 흥미로운 작업은 중국 연구소들이 하고 있는 듯함
- Google도 여전히 LLM 아키텍처 연구를 많이 공개하고 있음
  2022년에 LLM의 추측 디코딩을 소개했고[1], 올해는 Gemma 4 모델에서 추측 디코딩을 수행하는 코드도 공개함[2]
  
  [1] https://arxiv.org/abs/2211.17192
  
  [2] https://github.com/google-gemma/cookbook/blob/main/docs/mtp/...
- 미국 AI 회사들은 막대한 투자금을 책임져야 하니, 평가가치를 정당화할 마법 같은 해자를 찾으려는 것 같음
  이런 최적화를 공개하면 경쟁 우위가 상당히 줄어들 것임
- 어쩌면 필요에 의한 공개일 수도 있음
  미국 연구소들이 최전선에서 길을 개척하고 있으니, DeepSeek가 가진 것을 오픈소스로 공개해 경쟁장을 평평하게 만들려는 것 같다는 추측임
- DeepSeek는 미국 연구소들이 투자자에게 돈을 벌어주기 위해 의존하는 성능 향상분을 상품화하고 있음
- 이제 서구권도 중국인을 “독재 아래의 아주 나쁜 사람들”로만 보는 인식을 버릴 때가 됨
Hugging Face 모델이 이미 올라와 있고, 원래 모델에 추측 디코딩 모듈이 내장된 형태로 보이는데 꽤 멋짐

Flash: https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark

Pro: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark

로컬 추론용 DwarfStar에도 들어갈지 기대됨
antirez가 2비트 양자화를 공개한 뒤로 Flash 모델을 많이 써왔음
- Qwen 27B에도 이게 적용될 가능성이 있을까?
지금 느낌으로는 DeepSeek가 단순히 벤치마크 1위를 노리기보다 실제로 혁신하려는 거의 유일한 AI 회사 같음
OpenAI, Anthropic, Google 같은 곳은 계속 혁신하기보다 서로 경쟁하는 데 더 치중하는 듯함
- Moonshot(Kimi 개발사)과 Z.ai(GLM 개발사) 같은 다른 중국 연구소도 포함해야 한다고 봄
  이들도 혁신하고 있고 연구를 계속 공개적으로 공유하고 있음
  Moonshot 창업자는 Kimi를 지탱하는 기법을 설명하는 40분짜리 영상을 Twitter에 올리기도 한 것으로 알고 있음
- 미국의 많은 회사들은 오래전부터 수단이 무엇이든 사용자를 붙잡는 것을 전략으로 삼아왔음
  품질과 혁신은 두 번째 요소이고, 시장을 장악하고 사용자를 가둔 뒤 규제와 로비에 영향력을 행사해 힘을 유지하려 함
- 그 회사들도 혁신을 통해 서로 경쟁하고 있음
  혁신은 고객에게 더 큰 효용을 주지만, 기술은 공개되지 않을 뿐임
  영업비밀은 이유가 있어서 비밀임
  
  DeepSeek가 “가장 혁신적”으로 보이는 이유는 바깥에서 관찰 가능한 것이 그것이기 때문일 수 있음
  모두가 대중에게 사진을 공개하지 않는다고 해서, 공개된 모델들이 인구 전체에서 가장 예쁘다고 결론 내리는 것과 비슷한 착각임
- 대형 연구소들은 이미 최소 1년 전부터 이런 걸 해오고 있었음
- Qwen도 마찬가지임
DeepSeek v4 pro를 한 달째 Kilo Code에서 쓰고 있는데 훌륭함
빠르고 안정적이고 컨텍스트 창이 크며 정말 저렴함
이번 달에 토큰 15억 개를 썼는데 40달러가 들었고, 대부분 캐시된 것이긴 해도 여전히 싸다
- omp에서 DeepSeek를 task와 quicktask 에이전트로, Sonnet을 나머지 용도로 쓰고 있음
  AI 지출이 크게 줄어서 하루 40달러에서 하루 10달러로 내려감
- 어느 제공자를 썼는지 궁금함
  OpenRouter에서는 40달러를 금방 썼음
  왕복 대화가 많지 않았고 컨텍스트는 약 30만, 출력은 1만5천 줄 정도였음
  opencode를 쓰고 있었는데 전체 토큰 수를 보이게 할 수 있는지는 잘 모르겠음
- Kilo를 Pi나 OpenCode와 비교해봤는지 궁금함
  둘은 익숙하지만 항상 대안을 찾고 있음
- Claude Code Pro에서 토큰을 얼마나 썼는지 볼 방법이 있나?
이게 2022년의 추측 디코딩보다 더 새롭거나 나은 것인가? https://arxiv.org/abs/2211.17192
- 그 논문은 이 논문의 ‘introduction’과 ‘background’ 섹션에서 인용됨
  이 논문은 몇 가지 병목을 제거해 개선하는 내용임
- DeepSeek 규모에서 추측이 낭비되는 검증 작업이 아니라 순수한 속도 향상으로 이어지도록, 초안 모델과 검증 정책을 개선하는 데 초점을 둔 것 같음
시점이 우연은 아닌 듯함
공개성과 강한 규제를 대비해 보여주는 것 같음
- 중국 = 공개적, 미국 = 강한 규제라니 이상한 타임라인임
  다만 이건 Xi의 목표와 정렬되어 있기 때문에 가능한 일임
- Anthropic에게 새 AI 모델의 위험성을 크게 떠드는 미디어 공세를 하라고 강요한 사람은 아무도 없음
  솔직히 자업자득임
제목이 별로임
논문 제목이 아니라 초록의 첫 줄을 가져온 것임
LLM 추론용 추측 디코딩은 2022년에 이미 공개됐음: https://arxiv.org/abs/2211.17192

이 논문은 추측 디코딩의 개선으로 보이지만 아직 읽어보지는 않음
이름 때문에 처음에는 DGX Spark와 관련된 줄 알았음
우연히도 최근 DGX Spark의 추론 성능을 개선하는 작업이 많이 있었고, MTP로 50~100% 속도 향상이 나왔으니 DSpark도 그 목적에 꽤 도움이 될 것 같음
아마 이건 한동안 프로덕션에서 쓰이고 있었고, 한 달 전에 가격을 크게 낮출 수 있었던 이유 중 하나였을 것 같음
- 맞음
  5장은 실제 배포를 다룸
  5.1에는 “DSpark draft models are co-deployed with the preview versions of DeepSeek-V4-Flash and DeepSeek-V4-Pro”라고 되어 있고, 5.4에는 “MTP-1 represents the former production setup, having been superseded by DSpark two weeks following the DeepSeek-V4-preview release”라고 되어 있음
- Lookahead Sparse Attention도 큰 역할을 했을 것임
  메모리 사용량을 크게 줄여주기 때문임
- 잘 짚었음
  가격을 75% 낮췄는데, 속도와 추론 최적화 이득과 정확히 맞아떨어지는 것 같음
곧 사용 사례, 회사, 심지어 개인마다 고유한 추측 디코딩용 소형 모델이 매우 다양하게 존재하는 세상이 올 것 같음
- 그렇게 되면 좋겠고, 하드웨어를 구하기 불가능해지지 않았으면 함
- 맞음
  정교한 가드레일에 강하게 제약된 형태가 될 것임
  
  확실히 이 방향으로 가고 있음
  세상을 다 먹어치우려는 거대한 모델들은 그에 비해 수익 체감이 극심함
- 최근 추측 디코딩 논문들을 분명 읽지 않은 것 같음
  이미 한동안 어떤 모델이든 다른 모델을 위해 추측에 사용할 수 있었음
  과거에 이를 막던 토큰화 문제가 해결됐음

Read Entire Article

DSpark: Speculative decoding을 활용한 LLM 추론 가속화 [pdf]

Hacker News 의견들

Related

Command & Conquer Generals, Fable로 macOS·iPhone·iPad 네이티...

Linux htop/top 화면에 보이는 값들 해설 (2019)

YouTube 크리에이터의 비공개 영상 유출

MemNixFS - 리눅스 메모리 덤프를 파일시스템으로 변환해 조사하는 도구

Show GN: Cluedoc: 코드베이스 이해를 돕는 문서 작성 에이전트 스킬

개인 웹사이트는 무엇이어야 하는가?

웹 개발자를 위한 Safari MCP 서버

회의 병목은 회의실 공기일지도 모름

Tips

Popular

SAP Opens Data Center in India, Underscoring Expertise in Da...

[월드컵] 미 복수 비자 발급받은 이란 토라비…'가시밭길' 대표팀 숨통

Google IPv6 접속 비율 50% 도달

기계체조 대표팀, 아시안게임 전초전 아시아선수권대회 출격

안선영, '시험 1분 지각' 후 주관사 저격했다가 사과…"경솔했다, 전적으로 제 잘못"

[G-브리핑] 컴투스, 임직원 참여형 ESG 플로깅 활동

MSI 티켓 위한 마지막 승부…원주에서 LCK 대표 두 팀 가린다

'하트시그널5' 사생활 의혹 출연자 본방송 등장…제작진 "사실관계 확인 중"

Gemma 4 QAT 모델: 모바일과 노트북 효율성을 위한 압축 최적화

티파니 영, '전참시'서 신혼 일상 공개⋯"변요한과 열애, 멤버들에게도 비밀&qu...