DeepSeek는 한계를 넓히는 데서 그치지 않고, 성능 향상을 어떻게 달성했는지 설명하는 훌륭한 논문까지 공개하고 있음 Google도 여전히 LLM 아키텍처 연구를 많이 공개하고 있음 [1] https://arxiv.org/abs/2211.17192 [2] https://github.com/google-gemma/cookbook/blob/main/docs/mtp/... 미국 AI 회사들은 막대한 투자금을 책임져야 하니, 평가가치를 정당화할 마법 같은 해자를 찾으려는 것 같음 어쩌면 필요에 의한 공개일 수도 있음 DeepSeek는 미국 연구소들이 투자자에게 돈을 벌어주기 위해 의존하는 성능 향상분을 상품화하고 있음 이제 서구권도 중국인을 “독재 아래의 아주 나쁜 사람들”로만 보는 인식을 버릴 때가 됨 Hugging Face 모델이 이미 올라와 있고, 원래 모델에 추측 디코딩 모듈이 내장된 형태로 보이는데 꽤 멋짐 Flash: https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark Pro: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark 로컬 추론용 DwarfStar에도 들어갈지 기대됨 지금 느낌으로는 DeepSeek가 단순히 벤치마크 1위를 노리기보다 실제로 혁신하려는 거의 유일한 AI 회사 같음 Moonshot(Kimi 개발사)과 Z.ai(GLM 개발사) 같은 다른 중국 연구소도 포함해야 한다고 봄 미국의 많은 회사들은 오래전부터 수단이 무엇이든 사용자를 붙잡는 것을 전략으로 삼아왔음 그 회사들도 혁신을 통해 서로 경쟁하고 있음 DeepSeek가 “가장 혁신적”으로 보이는 이유는 바깥에서 관찰 가능한 것이 그것이기 때문일 수 있음 대형 연구소들은 이미 최소 1년 전부터 이런 걸 해오고 있었음 Qwen도 마찬가지임 DeepSeek v4 pro를 한 달째 Kilo Code에서 쓰고 있는데 훌륭함 이게 2022년의 추측 디코딩보다 더 새롭거나 나은 것인가? https://arxiv.org/abs/2211.17192 시점이 우연은 아닌 듯함 제목이 별로임 이 논문은 추측 디코딩의 개선으로 보이지만 아직 읽어보지는 않음 이름 때문에 처음에는 DGX Spark와 관련된 줄 알았음 아마 이건 한동안 프로덕션에서 쓰이고 있었고, 한 달 전에 가격을 크게 낮출 수 있었던 이유 중 하나였을 것 같음 곧 사용 사례, 회사, 심지어 개인마다 고유한 추측 디코딩용 소형 모델이 매우 다양하게 존재하는 세상이 올 것 같음 그렇게 되면 좋겠고, 하드웨어를 구하기 불가능해지지 않았으면 함 맞음 확실히 이 방향으로 가고 있음 최근 추측 디코딩 논문들을 분명 읽지 않은 것 같음Hacker News 의견들
안타깝게도 미국 연구소들은 더 이상 이런 공개를 잘 하지 않고, 지금 AI에서 가장 흥미로운 작업은 중국 연구소들이 하고 있는 듯함
2022년에 LLM의 추측 디코딩을 소개했고[1], 올해는 Gemma 4 모델에서 추측 디코딩을 수행하는 코드도 공개함[2]
이런 최적화를 공개하면 경쟁 우위가 상당히 줄어들 것임
미국 연구소들이 최전선에서 길을 개척하고 있으니, DeepSeek가 가진 것을 오픈소스로 공개해 경쟁장을 평평하게 만들려는 것 같다는 추측임
antirez가 2비트 양자화를 공개한 뒤로 Flash 모델을 많이 써왔음
OpenAI, Anthropic, Google 같은 곳은 계속 혁신하기보다 서로 경쟁하는 데 더 치중하는 듯함
이들도 혁신하고 있고 연구를 계속 공개적으로 공유하고 있음
Moonshot 창업자는 Kimi를 지탱하는 기법을 설명하는 40분짜리 영상을 Twitter에 올리기도 한 것으로 알고 있음
품질과 혁신은 두 번째 요소이고, 시장을 장악하고 사용자를 가둔 뒤 규제와 로비에 영향력을 행사해 힘을 유지하려 함
혁신은 고객에게 더 큰 효용을 주지만, 기술은 공개되지 않을 뿐임
영업비밀은 이유가 있어서 비밀임
모두가 대중에게 사진을 공개하지 않는다고 해서, 공개된 모델들이 인구 전체에서 가장 예쁘다고 결론 내리는 것과 비슷한 착각임
빠르고 안정적이고 컨텍스트 창이 크며 정말 저렴함
이번 달에 토큰 15억 개를 썼는데 40달러가 들었고, 대부분 캐시된 것이긴 해도 여전히 싸다
AI 지출이 크게 줄어서 하루 40달러에서 하루 10달러로 내려감
OpenRouter에서는 40달러를 금방 썼음
왕복 대화가 많지 않았고 컨텍스트는 약 30만, 출력은 1만5천 줄 정도였음
opencode를 쓰고 있었는데 전체 토큰 수를 보이게 할 수 있는지는 잘 모르겠음
둘은 익숙하지만 항상 대안을 찾고 있음
이 논문은 몇 가지 병목을 제거해 개선하는 내용임
공개성과 강한 규제를 대비해 보여주는 것 같음
다만 이건 Xi의 목표와 정렬되어 있기 때문에 가능한 일임
솔직히 자업자득임
논문 제목이 아니라 초록의 첫 줄을 가져온 것임
LLM 추론용 추측 디코딩은 2022년에 이미 공개됐음: https://arxiv.org/abs/2211.17192
우연히도 최근 DGX Spark의 추론 성능을 개선하는 작업이 많이 있었고, MTP로 50~100% 속도 향상이 나왔으니 DSpark도 그 목적에 꽤 도움이 될 것 같음
5장은 실제 배포를 다룸
5.1에는 “DSpark draft models are co-deployed with the preview versions of DeepSeek-V4-Flash and DeepSeek-V4-Pro”라고 되어 있고, 5.4에는 “MTP-1 represents the former production setup, having been superseded by DSpark two weeks following the DeepSeek-V4-preview release”라고 되어 있음
메모리 사용량을 크게 줄여주기 때문임
가격을 75% 낮췄는데, 속도와 추론 최적화 이득과 정확히 맞아떨어지는 것 같음
정교한 가드레일에 강하게 제약된 형태가 될 것임
세상을 다 먹어치우려는 거대한 모델들은 그에 비해 수익 체감이 극심함
이미 한동안 어떤 모델이든 다른 모델을 위해 추측에 사용할 수 있었음
과거에 이를 막던 토큰화 문제가 해결됐음

1 week ago
12

![[월드컵] 미 복수 비자 발급받은 이란 토라비…'가시밭길' 대표팀 숨통](https://img5.yna.co.kr/photo/reuters/2026/06/16/PRU20260616240001009_P4.jpg)


![[G-브리핑] 컴투스, 임직원 참여형 ESG 플로깅 활동](https://pimg.mk.co.kr/news/cms/202606/11/news-p.v1.20260611.0f1bb9233318459cb7ad7f04a40a2d5c_R.jpg)



English (US) ·