추론 모델의 정의: 추론 모델은 복잡한 문제를 해결하기 위해 중간 단계를 포함한 다단계 생성이 필요한 질문에 답하는 과정임. 예를 들어, "기차가 시속 60마일로 3시간 동안 이동하면 얼마나 멀리 가는가?"와 같은 질문은 단순한 사실 기반 질문과 달리 추론이 필요함. 추론 모델의 필요성: 퍼즐, 고급 수학 문제, 복잡한 코딩 문제와 같은 복잡한 작업에 적합함. 그러나 요약, 번역, 지식 기반 질문 응답과 같은 간단한 작업에는 필요하지 않음. 추론 모델은 비용이 많이 들고 때로는 과도한 생각으로 인해 오류가 발생할 수 있음. DeepSeek-R1-Zero: 671B 사전 훈련된 DeepSeek-V3 기반 모델로, 강화 학습(RL)만으로 훈련됨. 이는 "콜드 스타트" 훈련으로 불리며, 일반적인 RLHF와 달리 감독된 미세 조정(SFT) 단계가 없음. DeepSeek-R1: DeepSeek의 주력 추론 모델로, DeepSeek-R1-Zero를 기반으로 추가 SFT 단계와 RL 훈련을 통해 개선됨. DeepSeek-R1-Distill: 이전 단계에서 생성된 SFT 데이터를 사용하여 Qwen 및 Llama 모델을 미세 조정하여 추론 능력을 향상시킴. 추론 시간 스케일링: 추론 중 컴퓨팅 자원을 늘려 출력 품질을 향상시키는 방법. 예를 들어, "단계별로 생각하기"와 같은 문구를 입력 프롬프트에 포함하여 모델이 중간 추론 단계를 생성하도록 유도함. 순수 강화 학습(RL): DeepSeek-R1-Zero는 순수 RL을 통해 추론이 행동으로 나타날 수 있음을 보여줌. 정확도 보상과 형식 보상을 사용하여 모델이 기본적인 추론 기술을 개발하도록 함. 감독된 미세 조정(SFT) 및 강화 학습(RL): DeepSeek-R1은 SFT와 RL을 결합하여 추론 성능을 향상시킴. 이는 고성능 추론 모델을 구축하는 데 중요한 접근 방식임. 순수 감독된 미세 조정(SFT) 및 증류: DeepSeek는 더 작은 모델을 훈련하여 효율성을 높임. 이는 더 작은 모델이지만 DeepSeek-R1-Zero에 비해 상대적으로 강력한 성능을 보임.이해하기: 추론 모델
DeepSeek R1 훈련 파이프라인
추론 모델 구축 및 개선을 위한 4가지 주요 방법
DeepSeek R1에 대한 생각
제한된 예산으로 추론 모델 개발