Qwen3-Max-Thinking 모델 공개

2 weeks ago 8

  • 대규모 강화학습과 파라미터 확장을 통해 사실 지식, 복잡한 추론, 인간 선호 정렬 등 여러 영역에서 성능을 높인 최신 추론 중심 모델
  • 19개 벤치마크에서 GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro 등과 유사하거나 일부 영역에서 상회하는 결과를 기록
  • 적응형 도구 사용 기능을 통해 대화 중 자동으로 검색, 메모리, 코드 인터프리터를 호출하며, 환각 감소와 실시간 정보 접근을 지원
  • 테스트 시점 확장(test-time scaling) 전략으로 추론 중 반복 계산을 줄이고, 자기 반성 기반 경험 축적 메커니즘을 통해 효율 향상
  • Qwen Chat과 API를 통해 즉시 사용 가능하며, OpenAI 및 Anthropic API와 호환되어 개발자들이 기존 워크플로에 쉽게 통합 가능

Qwen3-Max-Thinking 개요

  • Qwen3-Max-Thinking은 Qwen 시리즈의 최신 플래그십 추론 모델로, 강화학습과 대규모 연산 자원을 활용해 성능을 확장
    • 사실 지식, 복잡한 추론, 지시 따르기, 인간 선호 정렬, 에이전트 기능 등 여러 차원에서 개선
    • 19개 표준 벤치마크에서 GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro와 유사한 수준의 성능 달성
  • 두 가지 주요 혁신으로 강화됨
    • 적응형 도구 사용(adaptive tool-use) : 필요 시 검색 및 코드 인터프리터를 자동 호출
    • 고급 테스트 시점 확장(test-time scaling) : 추론 중 추가 연산을 효율적으로 활용해 Gemini 3 Pro를 능가하는 성능 확보

벤치마크 성능 요약

  • 지식(knowledge) 영역에서는 MMLU-Pro 85.7, C-Eval 93.7 등으로 상위권 모델과 근접한 점수
  • STEM 분야에서는 GPQA 87.4, HLE 30.2로 일부 모델보다 낮지만 균형 잡힌 성능 유지
  • 추론(reasoning) 벤치마크에서 HMMT Nov 25 94.7, LiveCodeBench v6 85.9 등 높은 수치 기록
  • 지시 따르기 및 정렬(instruction following & alignment) 부문에서 Arena-Hard v2 90.2로 최고 수준
  • 도구 사용(tool use)에이전트 검색(agentic search) 에서도 경쟁 모델 대비 우수한 결과 일부 확인

적응형 도구 사용 기능

  • 사용자가 직접 도구를 선택하지 않아도 모델이 Search, Memory, Code Interpreter를 자동 활용
    • SearchMemory는 환각을 줄이고 실시간 정보 접근 및 개인화된 응답 제공
    • Code Interpreter는 코드 실행과 계산 기반 추론을 통해 복잡한 문제 해결 지원
  • 이러한 기능은 규칙 기반 및 모델 기반 피드백을 결합한 추가 학습 과정을 통해 강화됨
  • 결과적으로 자연스럽고 강력한 대화형 경험 제공

테스트 시점 확장 전략

  • 추론 중 추가 연산을 분배하여 성능을 높이는 방법으로, 단순 병렬 샘플링보다 효율적
  • 제안된 방식은 경험 축적 기반 다중 라운드(self-reflective multi-round) 접근을 사용
    • “take-experience” 메커니즘을 통해 이전 라운드의 핵심 통찰을 추출
    • 이미 도출된 결론을 반복하지 않고 미해결 불확실성에 집중
  • 동일한 토큰 소비로 더 높은 문맥 효율성을 달성
    • GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5, HLE(w/ tools) 55.8→58.3으로 향상

개발 및 API 통합

  • Qwen Chat에서 즉시 사용 가능하며, 모델명은 qwen3-max-2026-01-23
  • Alibaba Cloud Model Studio를 통해 API 키 생성 후 사용 가능
  • OpenAI API와 완전 호환, Python 예시 코드 제공
    • enable_thinking 옵션을 통해 추론 모드 활성화 가능
  • Anthropic API 프로토콜과도 호환되어 Claude Code 환경에서도 동일하게 작동
    • 환경 변수 설정 후 claude 명령으로 실행 가능

Read Entire Article