-
Qwen3.5 시리즈는 35B, 122B, 27B 등 네 가지 대형 언어모델로 구성되며, 세 가지는 Apache 2.0 오픈소스 라이선스로 공개됨
- 이 모델들은 OpenAI GPT-5-mini와 Anthropic Claude Sonnet 4.5를 능가하는 벤치마크 성능을 보이며, 로컬 GPU 환경에서도 고성능 실행 가능
-
4비트 양자화(quantization) 로 정확도를 거의 유지하면서도 1백만 토큰 이상의 컨텍스트 윈도우를 지원, 데스크톱 GPU에서도 대규모 데이터 처리 가능
-
Gated Delta Networks와 Mixture-of-Experts(MoE) 구조를 결합해 효율성을 높였으며, ‘Thinking Mode’ 를 통해 내부 추론 과정을 거친 후 답변 생성
- 기업은 이를 통해 프라이버시 보호형 온프레미스 AI 구축이 가능하며, 고비용 클라우드 의존 없이 자율형 에이전트 개발을 실현할 수 있음
Qwen3.5-Medium 모델 개요
- 알리바바의 Qwen AI 팀이 공개한 Qwen3.5-Medium 시리즈는 에이전트 도구 호출(agentic tool calling) 을 지원하는 네 가지 LLM로 구성
- 공개 모델: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- 독점 모델: Qwen3.5-Flash (Alibaba Cloud Model Studio API 전용)
- 세 가지 오픈소스 모델은 Hugging Face와 ModelScope에서 다운로드 가능
- Qwen3.5-Flash는 상용 API 형태로 제공되며, 서구권 모델 대비 운영 비용이 낮음
성능 및 기술 구조
- Qwen3.5 모델은 OpenAI GPT-5-mini와 Claude Sonnet 4.5를 벤치마크에서 능가
-
양자화(quantization) 후에도 높은 정확도를 유지하며, 로컬 GPU(32GB VRAM) 환경에서 100만 토큰 이상의 컨텍스트 윈도우 지원
-
4비트 가중치 및 KV 캐시 양자화로 손실 없는 정확도와 대규모 데이터 처리 가능
-
하이브리드 아키텍처: Gated Delta Networks + Sparse Mixture-of-Experts(MoE)
- 총 350억 파라미터 중 3억 개만 활성화
- MoE 계층은 256개 전문가(8개 라우팅 + 1개 공유) 로 구성
-
4비트 압축 시에도 정확도 유지, 로컬 배포 시 메모리 절감
- 연구 지원을 위해 Qwen3.5-35B-A3B-Base 모델도 함께 공개
제품 구성 및 기능
-
Thinking Mode: 모델이 답변 전 <think> 태그로 내부 추론 과정을 생성
- 모델별 특징
-
Qwen3.5-27B: 효율성 중심, 80만 토큰 이상 컨텍스트 지원
-
Qwen3.5-Flash: 100만 토큰 기본 컨텍스트, 공식 도구 내장
-
Qwen3.5-122B-A10B: 서버급 GPU(80GB VRAM)용, 100만+ 컨텍스트 지원
-
벤치마크 결과: Qwen3.5-35B-A3B는 Qwen3-235B, GPT-5-mini, Sonnet 4.5보다 지식(MMMLU) 및 시각 추론(MMMU-Pro) 항목에서 우수
가격 및 API 통합
-
Qwen3.5-Flash API 요금
- 입력: $0.1 / 100만 토큰
- 출력: $0.4 / 100만 토큰
- 캐시 생성: $0.125 / 100만 토큰
- 캐시 읽기: $0.01 / 100만 토큰
-
도구 호출 요금제: Web Search $10/1,000회, Code Interpreter 무료(한시적)
- 주요 LLM과 비교 시 가장 저렴한 API 중 하나
- 예: Claude Sonnet 4.5는 총 $18/100만 토큰, GPT-5.2는 $15.75, Qwen3.5-Flash는 $0.5
기업 활용 및 의미
- Qwen3.5-Medium 공개로 대규모 연구소 수준의 모델 미세조정 및 배포가 일반 기업에도 가능
-
온프레미스 환경에서 대용량 문서·영상 분석 수행 가능, 데이터 프라이버시 강화
-
Mixture-of-Experts 구조를 사내 방화벽 내에서 실행해 데이터 주권 유지
-
Thinking Mode와 Tool Calling 기능을 활용해 자율형 AI 에이전트 구축 가능
- 초기 사용자들은 “대형 폐쇄형 모델과의 격차를 좁혔다”고 평가
-
효율성 중심 설계로 AI 통합의 비용 절감·보안 강화·운영 민첩성 확보 가능