알리바바 오픈소스 Qwen3.5-Medium 모델, 로컬 환경에서 Sonnet 4.5 수준 성능 제공

3 weeks ago 10

Qwen3.5 시리즈는 35B, 122B, 27B 등 네 가지 대형 언어모델로 구성되며, 세 가지는 Apache 2.0 오픈소스 라이선스로 공개됨
이 모델들은 OpenAI GPT-5-mini와 Anthropic Claude Sonnet 4.5를 능가하는 벤치마크 성능을 보이며, 로컬 GPU 환경에서도 고성능 실행 가능
4비트 양자화(quantization) 로 정확도를 거의 유지하면서도 1백만 토큰 이상의 컨텍스트 윈도우를 지원, 데스크톱 GPU에서도 대규모 데이터 처리 가능
Gated Delta Networks와 Mixture-of-Experts(MoE) 구조를 결합해 효율성을 높였으며, ‘Thinking Mode’ 를 통해 내부 추론 과정을 거친 후 답변 생성
기업은 이를 통해 프라이버시 보호형 온프레미스 AI 구축이 가능하며, 고비용 클라우드 의존 없이 자율형 에이전트 개발을 실현할 수 있음

Qwen3.5-Medium 모델 개요

알리바바의 Qwen AI 팀이 공개한 Qwen3.5-Medium 시리즈는 에이전트 도구 호출(agentic tool calling) 을 지원하는 네 가지 LLM로 구성
- 공개 모델: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- 독점 모델: Qwen3.5-Flash (Alibaba Cloud Model Studio API 전용)
세 가지 오픈소스 모델은 Hugging Face와 ModelScope에서 다운로드 가능
Qwen3.5-Flash는 상용 API 형태로 제공되며, 서구권 모델 대비 운영 비용이 낮음

Qwen3.5 모델은 OpenAI GPT-5-mini와 Claude Sonnet 4.5를 벤치마크에서 능가
양자화(quantization) 후에도 높은 정확도를 유지하며, 로컬 GPU(32GB VRAM) 환경에서 100만 토큰 이상의 컨텍스트 윈도우 지원
4비트 가중치 및 KV 캐시 양자화로 손실 없는 정확도와 대규모 데이터 처리 가능
하이브리드 아키텍처: Gated Delta Networks + Sparse Mixture-of-Experts(MoE)
- 총 350억 파라미터 중 3억 개만 활성화
- MoE 계층은 256개 전문가(8개 라우팅 + 1개 공유) 로 구성
- 4비트 압축 시에도 정확도 유지, 로컬 배포 시 메모리 절감
연구 지원을 위해 Qwen3.5-35B-A3B-Base 모델도 함께 공개

Thinking Mode: 모델이 답변 전 <think> 태그로 내부 추론 과정을 생성
모델별 특징
- Qwen3.5-27B: 효율성 중심, 80만 토큰 이상 컨텍스트 지원
- Qwen3.5-Flash: 100만 토큰 기본 컨텍스트, 공식 도구 내장
- Qwen3.5-122B-A10B: 서버급 GPU(80GB VRAM)용, 100만+ 컨텍스트 지원
벤치마크 결과: Qwen3.5-35B-A3B는 Qwen3-235B, GPT-5-mini, Sonnet 4.5보다 지식(MMMLU) 및 시각 추론(MMMU-Pro) 항목에서 우수

Qwen3.5-Flash API 요금
- 입력: $0.1 / 100만 토큰
- 출력: $0.4 / 100만 토큰
- 캐시 생성: $0.125 / 100만 토큰
- 캐시 읽기: $0.01 / 100만 토큰
도구 호출 요금제: Web Search $10/1,000회, Code Interpreter 무료(한시적)
주요 LLM과 비교 시 가장 저렴한 API 중 하나
- 예: Claude Sonnet 4.5는 총 $18/100만 토큰, GPT-5.2는 $15.75, Qwen3.5-Flash는 $0.5