- Alibaba의 Qwen3.5 모델군은 0.8B부터 397B까지 다양한 크기를 제공하며, 멀티모달 하이브리드 추론 기능과 256K 컨텍스트를 지원
- Unsloth는 모든 Qwen3.5 모델을 Dynamic 2.0 GGUF 양자화로 제공하며, llama.cpp 또는 LM Studio를 통해 로컬에서 실행 가능
-
생각(thinking) 모드와 비추론(non-thinking) 모드를 전환할 수 있으며, 소형 모델(0.8B~9B)은 기본적으로 비추론 모드로 설정
- 각 모델별로 필요한 RAM/VRAM 용량과 권장 설정값(temperature, top_p 등)이 명시되어 있으며, Mac 22GB 환경에서도 27B·35B 모델 실행 가능
- Unsloth GGUF는 향상된 양자화 알고리듬과 imatrix 데이터를 적용해 성능을 개선했으며, Ollama에서는 비호환임
Qwen3.5 개요
- Qwen3.5는 Alibaba가 공개한 새로운 LLM 시리즈로, 0.8B·2B·4B·9B(소형)부터 27B·35B·122B·397B(대형)까지 포함
-
멀티모달 하이브리드 추론을 지원하며, 201개 언어와 256K 컨텍스트 길이를 처리
-
에이전트 코딩, 비전, 대화, 장문 문맥 작업에서 높은 성능을 보임
-
35B와 27B 모델은 22GB RAM 환경의 Mac에서도 실행 가능
- 모든 GGUF 파일은 개선된 양자화 알고리듬과 새로운 imatrix 데이터를 사용
- 채팅, 코딩, 장문 문맥, 도구 호출(tool-calling)에서 성능 향상
- MXFP4 계층은 일부 GGUF(Q2_K_XL, Q3_K_XL, Q4_K_XL)에서 제거
하드웨어 요구사항
- 표에 따르면 모델 크기별 최소 메모리 요구량이 명시됨
- 예: 0.8B~2B 모델은 3GB, 9B는 5.5GB(3-bit 기준), 35B-A3B는 17GB 필요
- 397B-A17B는 3-bit 기준 180GB, 4-bit 기준 214GB 필요
-
총 메모리(RAM+VRAM) 가 모델 파일 크기보다 커야 최적 성능 확보
- 부족할 경우 SSD/HDD 오프로딩으로 실행 가능하나 속도 저하 발생
- 27B는 정확도 우선, 35B-A3B는 속도 우선 선택
권장 설정값
-
최대 컨텍스트 윈도우: 262,144 (YaRN으로 1M까지 확장 가능)
-
presence_penalty: 0.0~2.0 (반복 감소용, 높을수록 성능 약간 저하 가능)
-
출력 길이: 32,768 토큰 권장
-
Thinking 모드와 Non-thinking 모드에 따라 설정값이 다름
- Thinking 모드: 일반 작업은 temperature=1.0, 코딩은 0.6
- Non-thinking 모드: 일반 작업은 temperature=0.7, 추론 작업은 1.0
-
소형 모델(0.8B~9B) 은 기본적으로 reasoning 비활성화
- 활성화 시 --chat-template-kwargs '{"enable_thinking":true}' 사용
실행 및 추론 튜토리얼
- 모든 모델은 Dynamic 4-bit MXFP4_MOE GGUF 버전으로 제공
-
llama.cpp를 이용한 로컬 추론 절차
- GitHub에서 최신 버전 설치 후, -DGGML_CUDA 옵션으로 GPU/CPU 선택
- Hugging Face에서 모델 다운로드 (hf download unsloth/Qwen3.5-XXB-GGUF)
-
llama-cli 또는 llama-server 명령으로 실행
-
LM Studio에서도 실행 가능
- 모델 검색 후 GGUF 다운로드, YAML 파일로 Thinking 토글 활성화
- 재시작 후 토글 기능 사용 가능
모델별 실행 요약
-
Qwen3.5-35B-A3B: 24GB RAM/Mac에서 Dynamic 4-bit로 빠른 추론 가능
-
Qwen3.5-27B: 18GB RAM/Mac에서 실행 가능
-
Qwen3.5-122B-A10B: 70GB RAM/Mac 환경에서 동작
-
Qwen3.5-397B-A17B:
- 3-bit: 192GB RAM, 4-bit: 256GB RAM 필요
- 24GB GPU + 256GB RAM 조합 시 초당 25토큰 이상 생성
- Gemini 3 Pro, Claude Opus 4.5, GPT-5.2와 유사 성능급
추론 서버 및 API 연동
-
llama-server를 통해 OpenAI 호환 API 형태로 배포 가능
-
Tool Calling 기능 지원
- Python 코드 실행, 터미널 명령, 수학 연산 등 함수 호출 가능
-
unsloth_inference() 예제 코드 제공
벤치마크 결과
-
Unsloth GGUF 벤치마크
- Qwen3.5-35B Dynamic quant가 대부분 비트 구간에서 SOTA 성능
- 150회 이상 KL Divergence 테스트, 총 9TB GGUF 데이터 사용
-
99.9% KLD에서 Pareto Frontier 상의 최고 성능
-
Qwen3.5-397B-A17B
- Benjamin Marie의 제3자 테스트에서
- 원본 81.3%, UD-Q4_K_XL 80.5%, UD-Q3_K_XL 80.7%
- 정확도 하락 1포인트 미만, 메모리 절감 약 500GB
- Q3는 메모리 절약형, Q4는 안정형 선택지로 제시
기타 기능
-
Reasoning 활성/비활성 명령어 제공 (--chat-template-kwargs)
-
Claude Code / OpenAI Codex와 연동 가능
-
Tool Calling Guide를 통해 로컬 LLM 도구 호출 구성 가능
-
Ollama 비호환, llama.cpp 기반 백엔드만 지원