MiMo-V2.5 — Xiaomi의 오픈소스 옴니모델 AI 모델

9 hours ago 3

텍스트, 이미지, 비디오, 오디오를 단일 아키텍처에서 통합 처리하는 네이티브 옴니모달 모델로, 에이전트 작업에 특화
MIT 라이센스로 상용 배포 및 파인튜닝까지 모두 가능 - 별도 허가 필요없음
Sparse MoE 구조로 전체 310B 파라미터 중 15B만 활성화하여 효율적 추론 가능 (Pro 버전은 1.02T/42B)
Hybrid Attention(SWA + GA 5:1 비율, 윈도우 128)으로 KV-cache 저장량 약 6배 절감하면서 최대 1M 토큰 컨텍스트 지원
전용 비전 인코더(729M 파라미터 ViT, 하이브리드 윈도우 어텐션)와 오디오 인코더(261M 파라미터, MiMo-Audio-Tokenizer 기반) 탑재
Multi-Token Prediction(MTP) 모듈 3개 레이어로 speculative decoding 기반 추론 가속 및 RL 훈련 효율 향상
총 약 48T 토큰으로 FP8 mixed precision 학습했으며, 후처리 단계에서 SFT, 대규모 에이전트 RL, Multi-Teacher On-Policy Distillation(MOPD) 적용하여 에이전트·멀티모달 벤치마크 성능 강화
- 5단계 파이프라인(텍스트 사전학습 → 프로젝터 워밍업 → 멀티모달 사전학습 → SFT/에이전트 후처리 → RL/MOPD)
SGLang(FP8 양자화, dp/tp 병렬) 및 vLLM 공식 배포 지원
Base(256K) 와 Full(1M) 두 가지 버전 제공