DS4에 대한 몇 마디

6 hours ago 1
  • DwarfStar 4는 예상보다 빠르게 확산됐고, 단일 모델 중심의 로컬 AI 경험에 대한 수요를 드러냄
  • 빠른 확산에는 DeepSeek v4 Flash와 2/8비트 비대칭 양자화가 작용해 96GB 또는 128GB RAM 실행이 가능해짐
  • DS4는 특정 모델에 묶인 프로젝트가 아니라, GPU in a box 장비에서 빠른 최신 오픈 가중치 모델을 중심에 두려 함
  • 로컬 추론에서는 질문에 따라 ds4-coding, ds4-legal, ds4-medical 같은 전문 모델을 불러 쓰는 방식이 의미 있어 보임
  • 향후 초점은 품질 벤치마크, 코딩 에이전트, 자택 하드웨어 기반 CI, 포팅 확대, 직렬·병렬 분산 추론임

DS4의 빠른 확산과 배경

  • DwarfStar 4는 예상보다 빠르게 인기를 얻었고, 단일 모델 통합에 초점을 둔 로컬 AI 경험의 수요를 보여줌
  • 빠른 확산에는 DeepSeek v4 Flash 같은 준 프런티어 모델의 등장, 로컬 추론 판도를 바꿀 만큼 큰 성능과 속도, 2/8비트의 강한 비대칭 양자화 조합이 함께 작용함
  • 이 조합으로 96GB 또는 128GB RAM만으로도 모델 실행이 가능해짐
  • 최근 몇 년간 축적된 로컬 AI 운동의 경험이 DS4 개발 속도에 영향을 줬고, GPT 5.5의 도움이 없었다면 1주일 만에 만들기 어려웠을 것으로 보임
  • 첫 일주일은 재미있지만 피곤했고, 하루 평균 14시간씩 작업했으며 Redis 초기 몇 달과 비슷한 강도였음

앞으로의 방향

  • DS4는 DeepSeek v4 Flash로 시작하고 끝나는 프로젝트가 아니며, 시간이 지나면 중심 모델이 바뀔 수 있음
  • 목표는 고성능 Mac이나 DGX Spark 같은 “GPU in a box” 장비에서 실제로 빠르게 동작하는 최신 오픈 가중치 모델을 DS4의 중심에 두는 것임
  • 다음 후보는 새 체크포인트로 공개될 DeepSeek v4 Flash이며, 코딩용 버전이나 법률·의료 같은 전문가 변형 모델도 가능함
  • 로컬 추론에서는 질문에 따라 ds4-coding, ds4-legal, ds4-medical 같은 모델을 불러 쓰는 방식이 의미 있어 보임
  • Claude나 GPT에 묻던 진지한 작업을 로컬 모델에 맡기게 된 것은 이번이 처음이라고 볼 수 있음
  • 벡터 스티어링(vector steering) 으로 LLM을 더 자유롭게 쓰는 경험도 가능해졌고, DS4는 작은 로컬 모델보다 온라인 프런티어 모델에 훨씬 가까운 경험을 줌
  • 초기의 혼란스러운 며칠 이후 프로젝트는 품질 벤치마크, 코딩 에이전트, 자택 하드웨어 기반 CI 테스트, 더 많은 포팅, 분산 추론에 집중할 예정임
  • 분산 추론은 직렬(serial)병렬(parallel) 방식을 모두 포함하며, 중요한 향후 과제로 남아 있음
  • AI는 단순한 제공 서비스로만 남기기에는 너무 중요함
Read Entire Article