Qwen3.5 미세조정 가이드

3 weeks ago 9

Qwen3.5 모델군(0.8B~122B) 을 Unsloth로 텍스트 및 비전 기반 미세조정할 수 있음
Unsloth는 FA2 대비 1.5배 빠른 학습 속도와 VRAM 50% 절감을 제공하며, bf16 LoRA 설정으로 효율적 학습 가능
Colab 노트북을 통해 0.8B, 2B, 4B 모델을 무료로 실험할 수 있고, A100 환경용 27B·35B 모델 노트북도 제공
MoE 모델(35B, 122B 등) 은 최신 커널로 12배 빠른 학습, 35% 적은 VRAM, 6배 긴 컨텍스트 길이를 지원
학습 후 모델은 GGUF, vLLM, Ollama, LM Studio, SGLang 등 다양한 배포 포맷으로 내보낼 수 있음

Qwen3.5 미세조정 개요

Qwen3.5 모델군(0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B)을 Unsloth로 미세조정 가능
- 텍스트와 비전(vision) 모두 지원
- Qwen3.5‑35B‑A3B bf16 LoRA는 74GB VRAM에서 작동
Unsloth는 1.5배 빠른 학습 속도, 50% 적은 VRAM 사용량을 제공
- VRAM 사용량: 0.8B(3GB), 2B(5GB), 4B(10GB), 9B(22GB), 27B(56GB)
무료 Google Colab 노트북으로 0.8B, 2B, 4B 모델을 실험 가능
추론 능력 유지를 위해 reasoning 예시를 75% 이상 포함하는 데이터 구성이 권장됨
Full Fine-Tuning(FFT) 도 가능하나 VRAM 사용량이 4배 증가

학습 환경 및 설정

Qwen3.5는 201개 언어를 지원하는 다국어 모델
Reinforcement Learning(RL) 및 Vision RL(VLM RL) 도 Unsloth를 통해 지원
A100 Colab 노트북 제공: Qwen3.5‑27B, Qwen3.5‑35B‑A3B
로컬 학습 시 최신 버전으로 업데이트 필요
- 명령어: pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
transformers v5 필수, 구버전은 작동하지 않음
Mamba Triton 커널 컴파일로 인해 초기 학습이 느릴 수 있음 (특히 T4 GPU)
QLoRA(4-bit) 학습은 권장되지 않음

MoE 모델 미세조정 (35B, 122B)

Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B 모델 지원
- 12배 빠른 학습, 35% 적은 VRAM, 6배 긴 컨텍스트 길이
bf16 LoRA 또는 Full Fine-Tuning 권장
MoE QLoRA 4-bit는 BitsandBytes 한계로 비추천
Unsloth MoE 커널 기본 활성화, UNSLOTH_MOE_BACKEND로 백엔드 전환 가능
Router-layer fine-tuning은 안정성 이유로 기본 비활성화
Qwen3.5‑122B‑A10B bf16 LoRA는 256GB VRAM 필요
- 다중 GPU 사용 시 device_map = "balanced" 설정 또는 multiGPU 가이드 참고

Quickstart

텍스트 전용 SFT(지도학습 미세조정) 예시 제공
Qwen3.5는 Causal Language Model + Vision Encoder 구조
- 비전 종속성(torchvision, pillow) 설치 필요
최신 Transformers 버전 사용 권장
GRPO 학습은 fast vLLM 비활성화 후 Unsloth inference로 수행 가능
OOM(메모리 초과) 발생 시
- per_device_train_batch_size=1, max_seq_length 축소
- gradient_checkpointing="unsloth" 유지로 VRAM 절감 및 컨텍스트 확장
MoE bf16 LoRA 로더 예시 제공

Vision 미세조정

멀티모달 Qwen3.5 모델의 비전 미세조정 지원
- Qwen3-VL GRPO/GSPO RL 노트북 사용 가능 (모델명만 변경)
비전/텍스트 전용 학습 선택 가능
- Vision, Language, Attention, MLP 레이어 중 선택적 미세조정
- 기본값은 전체 활성화
다중 이미지 학습은 별도 multi-image vision 가이드 참고

모델 저장 및 배포

llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang 등 다양한 배포 방식 지원

GGUF 저장

Unsloth에서 GGUF 포맷 직접 저장 및 Hugging Face 업로드 지원
추론 시 성능 저하 발생 시, 잘못된 chat template 또는 EOS 토큰 사용이 주요 원인

vLLM 저장

vLLM 0.16.0은 Qwen3.5 미지원
- 0.170 이상 또는 Nightly 버전 필요
16-bit 저장 및 LoRA 어댑터만 저장 가능
세부 내용은 Unsloth의 inference 가이드 참고

Read Entire Article