Qwen3 - 더 깊이 생각하고 더 빠르게 행동하는 차세대 언어 모델

1 week ago 1

Qwen3는 최대 235B 파라미터를 가진 최신 대형 언어 모델로, DeepSeek-R1, Grok-3, Gemini-2.5-Pro 등과 경쟁 수준의 성능을 보여줌
하이브리드 사고 모드(Thinking/Non-Thinking)를 지원하여 문제 난이도에 따라 추론 깊이 조절이 가능함
119개 언어와 방언을 지원하며, 글로벌 활용성이 대폭 강화됨
전작 대비 2배 확장된 36조 토큰 데이터로 프리트레이닝하여 코딩, 수학, 논리추론 능력이 향상됨
Apache 2.0 라이선스로 오픈소스 공개되었으며, Hugging Face, ModelScope, Kaggle 등에서 바로 사용할 수 있음

소개

Qwen3는 Qwen 시리즈의 최신 대형 언어 모델로, 235B 파라미터를 가진 Qwen3-235B-A22B가 주요 플래그십 모델임
소형 MoE 모델인 Qwen3-30B-A3B는 10배 많은 파라미터를 활성화한 QwQ-32B를 능가하는 성능을 보임
Dense 모델 6종(0.6B, 1.7B, 4B, 8B, 14B, 32B)과 MoE 모델 2종(30B, 235B)을 Apache 2.0 라이선스 하에 공개함

주요 특징

하이브리드 사고 모드
- Thinking 모드: 복잡한 문제에 대해 단계별 추론을 수행하는 모드임
- Non-Thinking 모드: 빠른 응답이 필요한 간단한 문제에 대해 즉시 답변을 제공하는 모드임
- 작업에 따라 추론 예산을 조정해 비용 효율성과 품질을 최적화할 수 있음
다국어 지원
- 119개 언어와 방언 지원으로 글로벌 애플리케이션 확장 가능성 강화됨
- 주요 지원 언어군: 인도유럽어족, 중국티베트어족, 아프리카아시아어족, 오스트로네시아어족, 드라비다어족 등
개선된 에이전트 기능
- 코딩과 에이전트 능력 최적화
- Qwen-Agent와 통합해 툴 호출 능력 극대화 가능

사전 학습

Qwen2.5 대비 2배 증가한 36조 토큰을 사용해 프리트레이닝을 수행함
웹과 PDF 유사 문서 데이터를 수집하여 다양한 고품질 데이터셋 구성
STEM, 코딩, 수학 분야 데이터를 강화하여 전반적인 추론 능력 향상을 달성함

사후 학습

4단계 파이프라인(CoT 시작 → 강화학습 → 사고 모드 융합 → 일반 강화학습)을 적용함
논리적 추론과 빠른 응답을 동시에 수행할 수 있도록 모델 최적화
20개 이상 일반 도메인 태스크를 통한 강화학습으로 일반성 및 안정성을 강화함

Qwen3로 개발하기

Hugging Face transformers, SGLang, vLLM, Ollama, LMStudio, llama.cpp 등 다양한 프레임워크 지원
Thinking 모드는 코드에서 쉽게 on/off 가능하며, /think, /no_think 명령어로 대화 중 전환도 가능함

에이전트 사용법

Qwen-Agent를 통해 MCP 구성 파일이나 내장 툴을 사용하여 복잡한 에이전트 시스템 구축 가능
OpenAI API 호환 서버를 직접 구축해 로컬 또는 퍼블릭 배포 가능

미래 작업

Qwen3는 인공지능 일반 지능(AGI)과 인공지능 초지능(ASI)을 향한 중요한 이정표를 나타내며, 사전 학습과 강화 학습을 확장하여 더 높은 수준의 지능을 달성함
모델 아키텍처와 학습 방법론을 개선하여 데이터 확장, 모델 크기 증가, 컨텍스트 길이 확장, 모달리티 확장, 환경 피드백을 통한 장기 추론을 목표로 함
모델 훈련 중심의 시대에서 에이전트 훈련 중심의 시대로 전환하고 있으며, 다음 버전은 모든 사람의 작업과 삶에 의미 있는 발전을 가져올 것임

Read Entire Article