Qwen3 - 더 깊이 생각하고 더 빠르게 행동하는 차세대 언어 모델
1 week ago
1
-
Qwen3는 최대 235B 파라미터를 가진 최신 대형 언어 모델로, DeepSeek-R1, Grok-3, Gemini-2.5-Pro 등과 경쟁 수준의 성능을 보여줌
-
하이브리드 사고 모드(Thinking/Non-Thinking)를 지원하여 문제 난이도에 따라 추론 깊이 조절이 가능함
-
119개 언어와 방언을 지원하며, 글로벌 활용성이 대폭 강화됨
- 전작 대비 2배 확장된 36조 토큰 데이터로 프리트레이닝하여 코딩, 수학, 논리추론 능력이 향상됨
-
Apache 2.0 라이선스로 오픈소스 공개되었으며, Hugging Face, ModelScope, Kaggle 등에서 바로 사용할 수 있음
소개
-
Qwen3는 Qwen 시리즈의 최신 대형 언어 모델로, 235B 파라미터를 가진 Qwen3-235B-A22B가 주요 플래그십 모델임
- 소형 MoE 모델인 Qwen3-30B-A3B는 10배 많은 파라미터를 활성화한 QwQ-32B를 능가하는 성능을 보임
-
Dense 모델 6종(0.6B, 1.7B, 4B, 8B, 14B, 32B)과 MoE 모델 2종(30B, 235B)을 Apache 2.0 라이선스 하에 공개함
주요 특징
-
하이브리드 사고 모드
-
Thinking 모드: 복잡한 문제에 대해 단계별 추론을 수행하는 모드임
-
Non-Thinking 모드: 빠른 응답이 필요한 간단한 문제에 대해 즉시 답변을 제공하는 모드임
- 작업에 따라 추론 예산을 조정해 비용 효율성과 품질을 최적화할 수 있음
-
다국어 지원
-
119개 언어와 방언 지원으로 글로벌 애플리케이션 확장 가능성 강화됨
- 주요 지원 언어군: 인도유럽어족, 중국티베트어족, 아프리카아시아어족, 오스트로네시아어족, 드라비다어족 등
-
개선된 에이전트 기능
-
코딩과 에이전트 능력 최적화
-
Qwen-Agent와 통합해 툴 호출 능력 극대화 가능
사전 학습
-
Qwen2.5 대비 2배 증가한 36조 토큰을 사용해 프리트레이닝을 수행함
- 웹과 PDF 유사 문서 데이터를 수집하여 다양한 고품질 데이터셋 구성
-
STEM, 코딩, 수학 분야 데이터를 강화하여 전반적인 추론 능력 향상을 달성함
사후 학습
-
4단계 파이프라인(CoT 시작 → 강화학습 → 사고 모드 융합 → 일반 강화학습)을 적용함
-
논리적 추론과 빠른 응답을 동시에 수행할 수 있도록 모델 최적화
-
20개 이상 일반 도메인 태스크를 통한 강화학습으로 일반성 및 안정성을 강화함
Qwen3로 개발하기
-
Hugging Face transformers, SGLang, vLLM, Ollama, LMStudio, llama.cpp 등 다양한 프레임워크 지원
-
Thinking 모드는 코드에서 쉽게 on/off 가능하며, /think, /no_think 명령어로 대화 중 전환도 가능함
에이전트 사용법
-
Qwen-Agent를 통해 MCP 구성 파일이나 내장 툴을 사용하여 복잡한 에이전트 시스템 구축 가능
- OpenAI API 호환 서버를 직접 구축해 로컬 또는 퍼블릭 배포 가능
미래 작업
-
Qwen3는 인공지능 일반 지능(AGI)과 인공지능 초지능(ASI)을 향한 중요한 이정표를 나타내며, 사전 학습과 강화 학습을 확장하여 더 높은 수준의 지능을 달성함
- 모델 아키텍처와 학습 방법론을 개선하여 데이터 확장, 모델 크기 증가, 컨텍스트 길이 확장, 모달리티 확장, 환경 피드백을 통한 장기 추론을 목표로 함
- 모델 훈련 중심의 시대에서 에이전트 훈련 중심의 시대로 전환하고 있으며, 다음 버전은 모든 사람의 작업과 삶에 의미 있는 발전을 가져올 것임
-
Homepage
-
개발자
- Qwen3 - 더 깊이 생각하고 더 빠르게 행동하는 차세대 언어 모델