Qwen3.5 로컬 실행 가이드

2 weeks ago 9

Alibaba의 Qwen3.5 모델군은 0.8B부터 397B까지 다양한 크기를 제공하며, 멀티모달 하이브리드 추론 기능과 256K 컨텍스트를 지원
Unsloth는 모든 Qwen3.5 모델을 Dynamic 2.0 GGUF 양자화로 제공하며, llama.cpp 또는 LM Studio를 통해 로컬에서 실행 가능
생각(thinking) 모드와 비추론(non-thinking) 모드를 전환할 수 있으며, 소형 모델(0.8B~9B)은 기본적으로 비추론 모드로 설정
각 모델별로 필요한 RAM/VRAM 용량과 권장 설정값(temperature, top_p 등)이 명시되어 있으며, Mac 22GB 환경에서도 27B·35B 모델 실행 가능
Unsloth GGUF는 향상된 양자화 알고리듬과 imatrix 데이터를 적용해 성능을 개선했으며, Ollama에서는 비호환임

Qwen3.5 개요

Qwen3.5는 Alibaba가 공개한 새로운 LLM 시리즈로, 0.8B·2B·4B·9B(소형)부터 27B·35B·122B·397B(대형)까지 포함
- 멀티모달 하이브리드 추론을 지원하며, 201개 언어와 256K 컨텍스트 길이를 처리
- 에이전트 코딩, 비전, 대화, 장문 문맥 작업에서 높은 성능을 보임
35B와 27B 모델은 22GB RAM 환경의 Mac에서도 실행 가능
모든 GGUF 파일은 개선된 양자화 알고리듬과 새로운 imatrix 데이터를 사용
- 채팅, 코딩, 장문 문맥, 도구 호출(tool-calling)에서 성능 향상
- MXFP4 계층은 일부 GGUF(Q2_K_XL, Q3_K_XL, Q4_K_XL)에서 제거

표에 따르면 모델 크기별 최소 메모리 요구량이 명시됨
- 예: 0.8B~2B 모델은 3GB, 9B는 5.5GB(3-bit 기준), 35B-A3B는 17GB 필요
- 397B-A17B는 3-bit 기준 180GB, 4-bit 기준 214GB 필요
총 메모리(RAM+VRAM) 가 모델 파일 크기보다 커야 최적 성능 확보
- 부족할 경우 SSD/HDD 오프로딩으로 실행 가능하나 속도 저하 발생
27B는 정확도 우선, 35B-A3B는 속도 우선 선택

최대 컨텍스트 윈도우: 262,144 (YaRN으로 1M까지 확장 가능)
presence_penalty: 0.0~2.0 (반복 감소용, 높을수록 성능 약간 저하 가능)
출력 길이: 32,768 토큰 권장
Thinking 모드와 Non-thinking 모드에 따라 설정값이 다름
- Thinking 모드: 일반 작업은 temperature=1.0, 코딩은 0.6
- Non-thinking 모드: 일반 작업은 temperature=0.7, 추론 작업은 1.0
소형 모델(0.8B~9B) 은 기본적으로 reasoning 비활성화
- 활성화 시 --chat-template-kwargs '{"enable_thinking":true}' 사용

모든 모델은 Dynamic 4-bit MXFP4_MOE GGUF 버전으로 제공
llama.cpp를 이용한 로컬 추론 절차
- GitHub에서 최신 버전 설치 후, -DGGML_CUDA 옵션으로 GPU/CPU 선택
- Hugging Face에서 모델 다운로드 (hf download unsloth/Qwen3.5-XXB-GGUF)
- llama-cli 또는 llama-server 명령으로 실행
LM Studio에서도 실행 가능
- 모델 검색 후 GGUF 다운로드, YAML 파일로 Thinking 토글 활성화
- 재시작 후 토글 기능 사용 가능

Qwen3.5-35B-A3B: 24GB RAM/Mac에서 Dynamic 4-bit로 빠른 추론 가능
Qwen3.5-27B: 18GB RAM/Mac에서 실행 가능
Qwen3.5-122B-A10B: 70GB RAM/Mac 환경에서 동작
Qwen3.5-397B-A17B:
- 3-bit: 192GB RAM, 4-bit: 256GB RAM 필요
- 24GB GPU + 256GB RAM 조합 시 초당 25토큰 이상 생성
- Gemini 3 Pro, Claude Opus 4.5, GPT-5.2와 유사 성능급

llama-server를 통해 OpenAI 호환 API 형태로 배포 가능
- openai Python 라이브러리로 로컬 서버에 요청 가능
- 예시: "http://127.0.0.1:8001/v1"; 엔드포인트 사용
Tool Calling 기능 지원
- Python 코드 실행, 터미널 명령, 수학 연산 등 함수 호출 가능
- unsloth_inference() 예제 코드 제공

Unsloth GGUF 벤치마크
- Qwen3.5-35B Dynamic quant가 대부분 비트 구간에서 SOTA 성능
- 150회 이상 KL Divergence 테스트, 총 9TB GGUF 데이터 사용
- 99.9% KLD에서 Pareto Frontier 상의 최고 성능
Qwen3.5-397B-A17B
- Benjamin Marie의 제3자 테스트에서
  - 원본 81.3%, UD-Q4_K_XL 80.5%, UD-Q3_K_XL 80.7%
  - 정확도 하락 1포인트 미만, 메모리 절감 약 500GB
- Q3는 메모리 절약형, Q4는 안정형 선택지로 제시