QwQ-32B 모델 소개
- QwQ-32B는 320억 개의 파라미터를 가진 모델로, DeepSeek-R1과 유사한 성능을 보임.
- 이 모델은 대규모 언어 모델의 지능을 강화하기 위해 강화 학습(RL)을 활용함.
- Hugging Face와 ModelScope에서 Apache 2.0 라이선스로 공개되어 있으며, Qwen Chat을 통해 접근 가능함.
성능
- QwQ-32B는 수학적 추론, 코딩 능력, 일반 문제 해결 능력을 평가하는 다양한 벤치마크에서 테스트됨.
- DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini, 그리고 원본 DeepSeek-R1과 비교하여 성능을 평가함.
강화 학습
- 초기 단계에서 수학과 코딩 작업을 위한 강화 학습(RL) 스케일링 접근 방식을 도입함.
- 전통적인 보상 모델 대신 정확성 검증기와 코드 실행 서버를 사용하여 최종 솔루션의 정확성을 보장함.
- 일반적인 능력을 위한 추가 RL 단계가 있으며, 이는 인간의 선호도와 에이전트 성능과 같은 일반적인 능력의 성능을 향상시킴.
QwQ-32B 사용법
- Hugging Face Transformers와 Alibaba Cloud DashScope API를 통해 QwQ-32B를 사용하는 예시를 제공함.
- 모델과 토크나이저를 불러와서 사용자 입력에 따라 응답을 생성하는 방법을 설명함.
미래 작업
- Qwen은 강화 학습(RL)을 확장하여 추론 능력을 향상시키는 초기 단계에 있음.
- 강화된 기초 모델과 스케일링된 계산 자원을 결합하여 인공지능 일반 지능(AGI) 달성에 가까워질 것임.
- 에이전트와 RL의 통합을 통해 장기적인 추론을 가능하게 하여 더 큰 지능을 발휘할 수 있도록 탐구 중임.