koenjafrdeiteshizh-CNvith





Qwen3 - 더 깊이 생각하고 더 빠르게 행동하는 차세대 언어 모델

1 week ago 1

  • Qwen3최대 235B 파라미터를 가진 최신 대형 언어 모델로, DeepSeek-R1, Grok-3, Gemini-2.5-Pro 등과 경쟁 수준의 성능을 보여줌
  • 하이브리드 사고 모드(Thinking/Non-Thinking)를 지원하여 문제 난이도에 따라 추론 깊이 조절이 가능함
  • 119개 언어와 방언을 지원하며, 글로벌 활용성이 대폭 강화됨
  • 전작 대비 2배 확장된 36조 토큰 데이터로 프리트레이닝하여 코딩, 수학, 논리추론 능력이 향상됨
  • Apache 2.0 라이선스로 오픈소스 공개되었으며, Hugging Face, ModelScope, Kaggle 등에서 바로 사용할 수 있음

소개

  • Qwen3Qwen 시리즈의 최신 대형 언어 모델로, 235B 파라미터를 가진 Qwen3-235B-A22B가 주요 플래그십 모델임
  • 소형 MoE 모델Qwen3-30B-A3B는 10배 많은 파라미터를 활성화한 QwQ-32B를 능가하는 성능을 보임
  • Dense 모델 6종(0.6B, 1.7B, 4B, 8B, 14B, 32B)과 MoE 모델 2종(30B, 235B)을 Apache 2.0 라이선스 하에 공개함

주요 특징

  • 하이브리드 사고 모드

    • Thinking 모드: 복잡한 문제에 대해 단계별 추론을 수행하는 모드임
    • Non-Thinking 모드: 빠른 응답이 필요한 간단한 문제에 대해 즉시 답변을 제공하는 모드임
    • 작업에 따라 추론 예산을 조정해 비용 효율성과 품질을 최적화할 수 있음
  • 다국어 지원

    • 119개 언어와 방언 지원으로 글로벌 애플리케이션 확장 가능성 강화됨
    • 주요 지원 언어군: 인도유럽어족, 중국티베트어족, 아프리카아시아어족, 오스트로네시아어족, 드라비다어족
  • 개선된 에이전트 기능

    • 코딩과 에이전트 능력 최적화
    • Qwen-Agent와 통합해 툴 호출 능력 극대화 가능

사전 학습

  • Qwen2.5 대비 2배 증가한 36조 토큰을 사용해 프리트레이닝을 수행함
  • 웹과 PDF 유사 문서 데이터를 수집하여 다양한 고품질 데이터셋 구성
  • STEM, 코딩, 수학 분야 데이터를 강화하여 전반적인 추론 능력 향상을 달성함

사후 학습

  • 4단계 파이프라인(CoT 시작 → 강화학습 → 사고 모드 융합 → 일반 강화학습)을 적용함
  • 논리적 추론빠른 응답을 동시에 수행할 수 있도록 모델 최적화
  • 20개 이상 일반 도메인 태스크를 통한 강화학습으로 일반성 및 안정성을 강화함

Qwen3로 개발하기

  • Hugging Face transformers, SGLang, vLLM, Ollama, LMStudio, llama.cpp 등 다양한 프레임워크 지원
  • Thinking 모드는 코드에서 쉽게 on/off 가능하며, /think, /no_think 명령어로 대화 중 전환도 가능함

에이전트 사용법

  • Qwen-Agent를 통해 MCP 구성 파일이나 내장 툴을 사용하여 복잡한 에이전트 시스템 구축 가능
  • OpenAI API 호환 서버를 직접 구축해 로컬 또는 퍼블릭 배포 가능

미래 작업

  • Qwen3는 인공지능 일반 지능(AGI)과 인공지능 초지능(ASI)을 향한 중요한 이정표를 나타내며, 사전 학습과 강화 학습을 확장하여 더 높은 수준의 지능을 달성함
  • 모델 아키텍처와 학습 방법론을 개선하여 데이터 확장, 모델 크기 증가, 컨텍스트 길이 확장, 모달리티 확장, 환경 피드백을 통한 장기 추론을 목표로 함
  • 모델 훈련 중심의 시대에서 에이전트 훈련 중심의 시대로 전환하고 있으며, 다음 버전은 모든 사람의 작업과 삶에 의미 있는 발전을 가져올 것임

Read Entire Article