QwQ-32B: 강화 학습의 힘을 수용하는 기술

1 week ago 3

QwQ-32B 모델 소개

QwQ-32B는 320억 개의 파라미터를 가진 모델로, DeepSeek-R1과 유사한 성능을 보임.
이 모델은 대규모 언어 모델의 지능을 강화하기 위해 강화 학습(RL)을 활용함.
Hugging Face와 ModelScope에서 Apache 2.0 라이선스로 공개되어 있으며, Qwen Chat을 통해 접근 가능함.

성능

QwQ-32B는 수학적 추론, 코딩 능력, 일반 문제 해결 능력을 평가하는 다양한 벤치마크에서 테스트됨.
DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini, 그리고 원본 DeepSeek-R1과 비교하여 성능을 평가함.

강화 학습

초기 단계에서 수학과 코딩 작업을 위한 강화 학습(RL) 스케일링 접근 방식을 도입함.
전통적인 보상 모델 대신 정확성 검증기와 코드 실행 서버를 사용하여 최종 솔루션의 정확성을 보장함.
일반적인 능력을 위한 추가 RL 단계가 있으며, 이는 인간의 선호도와 에이전트 성능과 같은 일반적인 능력의 성능을 향상시킴.

QwQ-32B 사용법

Hugging Face Transformers와 Alibaba Cloud DashScope API를 통해 QwQ-32B를 사용하는 예시를 제공함.
모델과 토크나이저를 불러와서 사용자 입력에 따라 응답을 생성하는 방법을 설명함.

미래 작업

Qwen은 강화 학습(RL)을 확장하여 추론 능력을 향상시키는 초기 단계에 있음.
강화된 기초 모델과 스케일링된 계산 자원을 결합하여 인공지능 일반 지능(AGI) 달성에 가까워질 것임.
에이전트와 RL의 통합을 통해 장기적인 추론을 가능하게 하여 더 큰 지능을 발휘할 수 있도록 탐구 중임.

Read Entire Article