Qwen3.5 로컬 실행 가이드

2 weeks ago 9

  • Alibaba의 Qwen3.5 모델군은 0.8B부터 397B까지 다양한 크기를 제공하며, 멀티모달 하이브리드 추론 기능과 256K 컨텍스트를 지원
  • Unsloth는 모든 Qwen3.5 모델을 Dynamic 2.0 GGUF 양자화로 제공하며, llama.cpp 또는 LM Studio를 통해 로컬에서 실행 가능
  • 생각(thinking) 모드와 비추론(non-thinking) 모드를 전환할 수 있으며, 소형 모델(0.8B~9B)은 기본적으로 비추론 모드로 설정
  • 각 모델별로 필요한 RAM/VRAM 용량권장 설정값(temperature, top_p 등)이 명시되어 있으며, Mac 22GB 환경에서도 27B·35B 모델 실행 가능
  • Unsloth GGUF는 향상된 양자화 알고리듬imatrix 데이터를 적용해 성능을 개선했으며, Ollama에서는 비호환

Qwen3.5 개요

  • Qwen3.5는 Alibaba가 공개한 새로운 LLM 시리즈로, 0.8B·2B·4B·9B(소형)부터 27B·35B·122B·397B(대형)까지 포함
    • 멀티모달 하이브리드 추론을 지원하며, 201개 언어256K 컨텍스트 길이를 처리
    • 에이전트 코딩, 비전, 대화, 장문 문맥 작업에서 높은 성능을 보임
  • 35B와 27B 모델22GB RAM 환경의 Mac에서도 실행 가능
  • 모든 GGUF 파일은 개선된 양자화 알고리듬새로운 imatrix 데이터를 사용
    • 채팅, 코딩, 장문 문맥, 도구 호출(tool-calling)에서 성능 향상
    • MXFP4 계층은 일부 GGUF(Q2_K_XL, Q3_K_XL, Q4_K_XL)에서 제거

하드웨어 요구사항

  • 표에 따르면 모델 크기별 최소 메모리 요구량이 명시됨
    • 예: 0.8B~2B 모델은 3GB, 9B는 5.5GB(3-bit 기준), 35B-A3B는 17GB 필요
    • 397B-A17B는 3-bit 기준 180GB, 4-bit 기준 214GB 필요
  • 총 메모리(RAM+VRAM) 가 모델 파일 크기보다 커야 최적 성능 확보
    • 부족할 경우 SSD/HDD 오프로딩으로 실행 가능하나 속도 저하 발생
  • 27B는 정확도 우선, 35B-A3B는 속도 우선 선택

권장 설정값

  • 최대 컨텍스트 윈도우: 262,144 (YaRN으로 1M까지 확장 가능)
  • presence_penalty: 0.0~2.0 (반복 감소용, 높을수록 성능 약간 저하 가능)
  • 출력 길이: 32,768 토큰 권장
  • Thinking 모드Non-thinking 모드에 따라 설정값이 다름
    • Thinking 모드: 일반 작업은 temperature=1.0, 코딩은 0.6
    • Non-thinking 모드: 일반 작업은 temperature=0.7, 추론 작업은 1.0
  • 소형 모델(0.8B~9B) 은 기본적으로 reasoning 비활성화
    • 활성화 시 --chat-template-kwargs '{"enable_thinking":true}' 사용

실행 및 추론 튜토리얼

  • 모든 모델은 Dynamic 4-bit MXFP4_MOE GGUF 버전으로 제공
  • llama.cpp를 이용한 로컬 추론 절차
    • GitHub에서 최신 버전 설치 후, -DGGML_CUDA 옵션으로 GPU/CPU 선택
    • Hugging Face에서 모델 다운로드 (hf download unsloth/Qwen3.5-XXB-GGUF)
    • llama-cli 또는 llama-server 명령으로 실행
  • LM Studio에서도 실행 가능
    • 모델 검색 후 GGUF 다운로드, YAML 파일로 Thinking 토글 활성화
    • 재시작 후 토글 기능 사용 가능

모델별 실행 요약

  • Qwen3.5-35B-A3B: 24GB RAM/Mac에서 Dynamic 4-bit로 빠른 추론 가능
  • Qwen3.5-27B: 18GB RAM/Mac에서 실행 가능
  • Qwen3.5-122B-A10B: 70GB RAM/Mac 환경에서 동작
  • Qwen3.5-397B-A17B:
    • 3-bit: 192GB RAM, 4-bit: 256GB RAM 필요
    • 24GB GPU + 256GB RAM 조합 시 초당 25토큰 이상 생성
    • Gemini 3 Pro, Claude Opus 4.5, GPT-5.2와 유사 성능급

추론 서버 및 API 연동

  • llama-server를 통해 OpenAI 호환 API 형태로 배포 가능
  • Tool Calling 기능 지원
    • Python 코드 실행, 터미널 명령, 수학 연산 등 함수 호출 가능
    • unsloth_inference() 예제 코드 제공

벤치마크 결과

  • Unsloth GGUF 벤치마크
    • Qwen3.5-35B Dynamic quant가 대부분 비트 구간에서 SOTA 성능
    • 150회 이상 KL Divergence 테스트, 총 9TB GGUF 데이터 사용
    • 99.9% KLD에서 Pareto Frontier 상의 최고 성능
  • Qwen3.5-397B-A17B
    • Benjamin Marie의 제3자 테스트에서
      • 원본 81.3%, UD-Q4_K_XL 80.5%, UD-Q3_K_XL 80.7%
      • 정확도 하락 1포인트 미만, 메모리 절감 약 500GB
    • Q3는 메모리 절약형, Q4는 안정형 선택지로 제시

기타 기능

  • Reasoning 활성/비활성 명령어 제공 (--chat-template-kwargs)
  • Claude Code / OpenAI Codex와 연동 가능
  • Tool Calling Guide를 통해 로컬 LLM 도구 호출 구성 가능
  • Ollama 비호환, llama.cpp 기반 백엔드만 지원

Read Entire Article