DeepScaleR: 1.5B 모델로 O1-Preview를 능가하는 RL 확장 기술

1 month ago 7

Hacker News 의견
  • 이 모델은 특정 문제를 해결하기 위해 벤치마크에 맞춰 조정되었으며, 다른 작업에서는 O1-Preview에 비해 성능이 떨어짐. 특별히 이 문제를 해결하고 싶지 않다면 주목할 가치가 없음. 그러나 여전히 인상적임
  • URL을 <a href="https:&#x2F;&#x2F;github.com&#x2F;agentica-project&#x2F;deepscaler">https://github.com/agentica-project/deepscaler</a>에서 더 많은 배경 정보를 제공하는 기사로 변경했음. 이 기사는 저장소로도 연결됨
  • 작은 강화 모델이 승리할 것임. 우리 문명, 회사, 팀을 보라: 많은 전문화된 사람들이 있고, 단일한 비대한 천재는 아님
  • 현재 벤치마크에 대한 과도한 강조가 문제임. 이상적으로는 사용자 KPI와 비교하여 벤치마크를 해야 함
  • 중요한 것은 특정 작업에서 강력한 성능을 발휘할 수 있는 1B 모델을 훈련시키는 간단하고 신뢰할 수 있는 공식임. 이전에는 이런 것이 없었음. 엣지 디바이스가 훨씬 더 스마트해질 것임
  • 나는 매우 순진하지만, 이 벤치마크를 신뢰하는 사람이 있는가? 이들이 의미가 있는가? 너무 쉽게 조작할 수 있는 것 같고, 모델들이 서로 어떻게 비교되는지를 정확히 알 수 있는 방법처럼 느껴지지 않음. 벤치마크와 유사하지만 모델이 본 적 없는 문제를 도입하면 성능이 상당히 저하되는 것 같음
  • 새로운 "추론" 모델을 테스트할 수 있는 좋은 간단한 프롬프트가 있는가? "strawberry 단어에서 R 문자를 세어라"는 조금 지루함
  • 나는 Ollama와 가장 작은 양자화된 GGUF 버전(769MB)을 사용하여 로컬에서 이것을 시도하고 있음 - <a href="https:&#x2F;&#x2F;huggingface.co&#x2F;bartowski&#x2F;agentica-org_DeepScaleR-1.5B-Preview-GGUF&#x2F;tree&#x2F;main" rel="nofollow">https://huggingface.co/bartowski/agentica-org_DeepScaleR-1.5...</…; - 이렇게 실행했음
  • 여기서 얻은 답변: <a href="https:&#x2F;&#x2F;gist.github.com&#x2F;simonw&#x2F;5943a77f35d1d5185f045fb53898aa52" rel="nofollow">https://gist.github.com/simonw/5943a77f35d1d5185f045fb53898a...</…; - 9번 스스로를 확인한 후 올바른 답을 얻었음. 그러나 시작할 때 중요한 오류를 범했음
  • CoT 모델이 외부 함수를 호출할 수 있는가? 계산기에 접근할 수 있다면 어떨까?
  • 이런 방식으로 검열되지 않은 모델을 얻을 수 있다면 정말 좋을 것임
  • 사실 꽤 어리석음. ASCII 시퀀스를 해독하라고 했더니 말도 안 되는 답을 줌. phi-4 Q4를 시도했더니 맞았음. 9GB 대 2GB(추론). 2GB에 충분한 정보를 담을 수 없어서 일반적인 수학 문제를 해결하거나 훈련 데이터에 무엇이 있었는지 아는 것 외에는 별로 쓸모가 없을 것 같음
  • 대학에 있을 때 이것은 솔직히 과적합이라고 불렸음. 평가 세트 외에서는 잘 작동하지 않는 것 같음

Read Entire Article