DS4에 대한 몇 마디

1 month ago 29

DwarfStar 4는 예상보다 빠르게 확산됐고, 단일 모델 중심의 로컬 AI 경험에 대한 수요를 드러냄
빠른 확산에는 DeepSeek v4 Flash와 2/8비트 비대칭 양자화가 작용해 96GB 또는 128GB RAM 실행이 가능해짐
DS4는 특정 모델에 묶인 프로젝트가 아니라, GPU in a box 장비에서 빠른 최신 오픈 가중치 모델을 중심에 두려 함
로컬 추론에서는 질문에 따라 ds4-coding, ds4-legal, ds4-medical 같은 전문 모델을 불러 쓰는 방식이 의미 있어 보임
향후 초점은 품질 벤치마크, 코딩 에이전트, 자택 하드웨어 기반 CI, 포팅 확대, 직렬·병렬 분산 추론임

DS4의 빠른 확산과 배경

DwarfStar 4는 예상보다 빠르게 인기를 얻었고, 단일 모델 통합에 초점을 둔 로컬 AI 경험의 수요를 보여줌
빠른 확산에는 DeepSeek v4 Flash 같은 준 프런티어 모델의 등장, 로컬 추론 판도를 바꿀 만큼 큰 성능과 속도, 2/8비트의 강한 비대칭 양자화 조합이 함께 작용함
이 조합으로 96GB 또는 128GB RAM만으로도 모델 실행이 가능해짐
최근 몇 년간 축적된 로컬 AI 운동의 경험이 DS4 개발 속도에 영향을 줬고, GPT 5.5의 도움이 없었다면 1주일 만에 만들기 어려웠을 것으로 보임
첫 일주일은 재미있지만 피곤했고, 하루 평균 14시간씩 작업했으며 Redis 초기 몇 달과 비슷한 강도였음

DS4는 DeepSeek v4 Flash로 시작하고 끝나는 프로젝트가 아니며, 시간이 지나면 중심 모델이 바뀔 수 있음
목표는 고성능 Mac이나 DGX Spark 같은 “GPU in a box” 장비에서 실제로 빠르게 동작하는 최신 오픈 가중치 모델을 DS4의 중심에 두는 것임
다음 후보는 새 체크포인트로 공개될 DeepSeek v4 Flash이며, 코딩용 버전이나 법률·의료 같은 전문가 변형 모델도 가능함
로컬 추론에서는 질문에 따라 ds4-coding, ds4-legal, ds4-medical 같은 모델을 불러 쓰는 방식이 의미 있어 보임
Claude나 GPT에 묻던 진지한 작업을 로컬 모델에 맡기게 된 것은 이번이 처음이라고 볼 수 있음
벡터 스티어링(vector steering) 으로 LLM을 더 자유롭게 쓰는 경험도 가능해졌고, DS4는 작은 로컬 모델보다 온라인 프런티어 모델에 훨씬 가까운 경험을 줌
초기의 혼란스러운 며칠 이후 프로젝트는 품질 벤치마크, 코딩 에이전트, 자택 하드웨어 기반 CI 테스트, 더 많은 포팅, 분산 추론에 집중할 예정임
분산 추론은 직렬(serial) 과 병렬(parallel) 방식을 모두 포함하며, 중요한 향후 과제로 남아 있음
AI는 단순한 제공 서비스로만 남기기에는 너무 중요함