Qwen3.6-Max-Preview: 더 똑똑하고, 더 정교하며, 계속 진화 중

3 weeks ago 17
  • 독점 호스팅 모델 초기 프리뷰로 공개됐으며, Qwen3.6-Plus 대비 에이전트형 코딩, 세계 지식, 지시 이행 성능 향상
  • 여섯 개 주요 코딩 벤치마크에서 최고 점수 기록이 명시됐고, SkillsBench +9.9, SciCode +6.3, NL2Repo +5.0, Terminal-Bench 2.0 +3.8 향상 확인
  • 세계 지식 벤치마크에서는 SuperGPQA +2.3, QwenChineseBench +5.3 개선이 제시됐고, 지시 이행에서는 ToolcallFormatIFBench +2.8 기록
  • Alibaba Cloud Model Studio에서 제공 예정이며 Qwen Studio에서 대화형 사용 가능하고, API에서는 qwen3.6-max-preview 이름과 preserve_thinking 기능 지원
  • 프리뷰 단계로 활발한 개발 지속 중이며, 이후 버전의 추가 향상과 커뮤니티 피드백 반영 예정

성능과 사용

  • Qwen3.6-Max-Preview는 Qwen3.6-Plus 다음으로 공개된 독점 호스팅 모델 초기 프리뷰
  • 실사용 성능 항목으로 실제 에이전트와 지식 신뢰성 성능 개선 언급
  • 여섯 개 주요 코딩 벤치마크에서 최고 점수 기록 명시
    • SWE-bench Pro
    • Terminal-Bench 2.0
    • SkillsBench
    • QwenClawBench
    • QwenWebBench
    • SciCode
  • 에이전트형 코딩 벤치마크에서 Qwen3.6-Plus 대비 큰 폭의 향상 기록
    • SkillsBench +9.9
    • SciCode +6.3
    • NL2Repo +5.0
    • Terminal-Bench 2.0 +3.8
  • 세계 지식 관련 벤치마크에서도 향상 확인
    • SuperGPQA +2.3
    • QwenChineseBench +5.3
  • 지시 이행 성능도 개선
    • ToolcallFormatIFBench +2.8
  • Qwen3.6-Max-Preview로 개발

    • Qwen3.6-Max-Preview의 Alibaba Cloud Model Studio 제공이 곧 시작될 예정이며, 완전히 준비되기 전까지 대기 요청
    • Alibaba Cloud Model Studio API를 통해 qwen3.6-max-preview로 사용 가능하다고 명시됐으며, Qwen Studio에서 즉시 체험 가능
  • API 사용

    • 이번 릴리스는 preserve_thinking 기능 지원
      • 메시지의 모든 이전 턴에서 thinking content 보존
      • 에이전트형 작업에 권장
  • Alibaba Cloud Model Studio

    • 산업 표준 프로토콜 지원
      • OpenAI 규격과 호환되는 chat completions API 지원
      • OpenAI 규격과 호환되는 responses API 지원
      • Anthropic 호환 API 인터페이스 지원
    • 환경 변수 예시 포함
      • DASHSCOPE_API_KEY 필요
      • DASHSCOPE_BASE_URL 선택 항목
      • Beijing, Singapore, US Virginia 엔드포인트 예시 제공
      • DASHSCOPE_MODEL 선택 항목이며 기본값 qwen3.6-max-preview
    • 코드 예시에서 enable_thinking: True 사용
    • preserve_thinking는 주석 형태 예시 포함
    • 스트리밍 응답에서 reasoning_content와 content를 구분해 수집하는 예시 포함
    • 추가 정보는 API 문서 링크 참조 안내

마무리

  • 프리뷰 릴리스로서 반복 개선 지속 중이며, 이후 버전에서 추가 개선 예정
  • 커뮤니티 피드백 환영 및 활용 예정
Read Entire Article