Qwen3.5: 네이티브 멀티모달 에이전트를 향하여

6 hours ago 1

Qwen3.5-397B-A17B는 언어·비전 통합 모델로 추론·코딩·에이전트·멀티모달 이해 전반에서 우수한 성능을 보임
GDN 기반 선형 어텐션과 희소 MoE를 결합한 하이브리드 구조로, 3,970억 파라미터 중 170억만 활성화되어 추론 효율과 비용 절감을 동시에 달성
언어·방언 지원이 119개에서 201개로 확대, 글로벌 사용자 접근성과 다국어 처리 성능 강화
Alibaba Cloud Model Studio를 통해 제공되는 Qwen3.5-Plus는 100만 토큰 컨텍스트 윈도우와 적응형 도구 사용 기능을 기본 지원
강화학습 환경 확장과 효율적 인프라 설계로 대규모 멀티모달 에이전트 학습·추론의 안정성과 확장성을 확보

Qwen3.5 개요

Qwen3.5는 비전-언어 통합 모델로, 추론·코딩·에이전트·멀티모달 이해 등 다양한 벤치마크에서 탁월한 성능을 보임
- 모델명 Qwen3.5-397B-A17B, 총 3,970억 파라미터 중 170억만 활성화
- Gated Delta Networks 기반 선형 어텐션과 희소 Mixture-of-Experts 구조 결합으로 속도와 비용 최적화
언어 지원이 119개에서 201개로 확대, 다국어 접근성 향상
Qwen3.5-Plus는 Alibaba Cloud Model Studio에서 제공되며,
- 1M 컨텍스트 윈도우, 공식 내장 도구, 적응형 도구 사용 기능 포함

성능 평가

Qwen3.5는 GPT5.2, Claude 4.5 Opus, Gemini-3 Pro 등 최신 모델들과 비교시
- 언어·추론·코딩·에이전트·멀티모달 전 영역에서 경쟁력 있는 점수 기록
언어 평가에서는 MMLU-Pro 94.9, SuperGPQA 70.4, IFBench 76.5 등 상위권 성능
비전-언어 평가에서는 MathVision 88.6, AI2D_TEST 93.9, OCRBench 93.1 등에서 높은 점수
멀티모달 이해력과 STEM 문제 해결력에서 Qwen3-VL 대비 향상된 결과
강화학습 환경 확장을 통해 일반 에이전트 성능이 향상되었으며, BFCL-V4·VITA-Bench 등에서 평균 순위 개선

사전학습(Pretraining)

Power: Qwen3 대비 대규모 시각-텍스트 토큰 학습, 다국어·STEM·추론 데이터 강화
- Qwen3.5-397B-A17B는 1T 파라미터급 모델(Qwen3-Max-Base)과 동등한 성능 달성
Efficiency: Qwen3-Next 아키텍처 기반으로 MoE 희소화·Gated DeltaNet·멀티토큰 예측 적용
- 32k/256k 컨텍스트에서 Qwen3-Max 대비 8.6배/19배 디코딩 처리량
Versatility: 텍스트-비전 조기 융합으로 자연스러운 멀티모달 처리,
- 어휘 수 25만(기존 15만)으로 인코딩·디코딩 효율 10~60% 향상

인프라 및 학습 프레임워크

비전·언어 병렬 전략 분리형 이기종 인프라로 효율적 멀티모달 학습 지원
- 희소 활성화를 활용해 텍스트·이미지·비디오 혼합 데이터에서도 100%에 가까운 처리 효율 달성
FP8 파이프라인으로 활성화·MoE 라우팅·GEMM 연산의 정밀도 최적화
- 메모리 사용 50% 감소, 속도 10% 이상 향상
비동기 강화학습 프레임워크를 구축해 텍스트·멀티모달·멀티턴 모델 학습 지원
- FP8 엔드투엔드 학습, speculative decoding, multi-turn rollout locking 등으로
  3~5배 처리 속도 향상과 안정적 확장성 확보

활용 및 통합

Qwen Chat에서 Auto·Thinking·Fast 모드 제공
- Auto: 도구 자동 사용 및 적응형 사고
- Thinking: 심층 추론
- Fast: 즉시 응답
ModelStudio API를 통해 reasoning, web search, Code Interpreter 기능 활성화 가능
- enable_thinking, enable_search 파라미터로 제어
Qwen Code, OpenClaw 등과 통합해 자연어 기반 코딩 및 멀티모달 창작 지원

데모 및 응용

Web 개발: 자연어 명령으로 웹페이지·UI 코드 생성
Visual Agent: 스마트폰·PC 상에서 자연어 기반 자동 조작 수행
Visual Coding: 100만 토큰 입력으로 최대 2시간 영상 처리,
- 손그림 UI → 코드 변환, 영상 요약 등 지원
Spatial Intelligence: 객체 수 세기·위치 관계·공간 묘사 정확도 향상
- 자율주행·로보틱스 응용 가능성 제시
Visual Reasoning: 과학적 문제 해결 및 시각적 논리 추론에서 Qwen3-VL 대비 향상

요약 및 향후 방향

Qwen3.5는 효율적 하이브리드 구조와 네이티브 멀티모달 추론을 기반으로
범용 디지털 에이전트 구축의 토대를 마련
향후 목표는 모델 확장에서 시스템 통합으로의 전환
- 지속적 메모리, 실세계 인터페이스, 자가 개선, 경제적 의사결정 기능을 갖춘 자율적·지속형 에이전트 시스템 개발

Read Entire Article