QwQ-32B: 강화 학습의 힘을 수용하는 기술

1 week ago 3

QwQ-32B 모델 소개

  • QwQ-32B는 320억 개의 파라미터를 가진 모델로, DeepSeek-R1과 유사한 성능을 보임.
  • 이 모델은 대규모 언어 모델의 지능을 강화하기 위해 강화 학습(RL)을 활용함.
  • Hugging Face와 ModelScope에서 Apache 2.0 라이선스로 공개되어 있으며, Qwen Chat을 통해 접근 가능함.

성능

  • QwQ-32B는 수학적 추론, 코딩 능력, 일반 문제 해결 능력을 평가하는 다양한 벤치마크에서 테스트됨.
  • DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini, 그리고 원본 DeepSeek-R1과 비교하여 성능을 평가함.

강화 학습

  • 초기 단계에서 수학과 코딩 작업을 위한 강화 학습(RL) 스케일링 접근 방식을 도입함.
  • 전통적인 보상 모델 대신 정확성 검증기와 코드 실행 서버를 사용하여 최종 솔루션의 정확성을 보장함.
  • 일반적인 능력을 위한 추가 RL 단계가 있으며, 이는 인간의 선호도와 에이전트 성능과 같은 일반적인 능력의 성능을 향상시킴.

QwQ-32B 사용법

  • Hugging Face Transformers와 Alibaba Cloud DashScope API를 통해 QwQ-32B를 사용하는 예시를 제공함.
  • 모델과 토크나이저를 불러와서 사용자 입력에 따라 응답을 생성하는 방법을 설명함.

미래 작업

  • Qwen은 강화 학습(RL)을 확장하여 추론 능력을 향상시키는 초기 단계에 있음.
  • 강화된 기초 모델과 스케일링된 계산 자원을 결합하여 인공지능 일반 지능(AGI) 달성에 가까워질 것임.
  • 에이전트와 RL의 통합을 통해 장기적인 추론을 가능하게 하여 더 큰 지능을 발휘할 수 있도록 탐구 중임.

Read Entire Article