-
강화학습 기반 대규모 훈련을 통해 실제 환경에서의 복잡한 작업 수행 능력을 높인 모델로, 코딩·검색·오피스 업무 등 경제적 가치가 높은 영역에서 최고 수준 성능을 기록
- SWE-Bench Verified에서 80.2% , Multi-SWE-Bench에서 51.3% , BrowseComp에서 76.3% 를 달성하며, 이전 세대 대비 37% 빠른 속도를 보임
-
시간당 1달러(100TPS 기준) 의 저비용으로 운영 가능하며, 성능은 Claude Opus 4.6과 유사 수준
-
코딩·검색·오피스 작업 전반에서 구조적 사고, 효율적 검색, 전문가 수준 문서 작성 능력을 강화
- MiniMax 내부에서도 전체 업무의 30%를 자동 수행, 코드 생성의 80%를 담당하며 실제 생산성 향상을 입증
M2.5 개요 및 주요 성능
- M2.5는 수십만 개의 복잡한 실제 환경에서 강화학습으로 훈련된 모델로, 코딩·도구 활용·검색·사무 작업 등에서 SOTA 수준 달성
- SWE-Bench Verified 80.2%, Multi-SWE-Bench 51.3%, BrowseComp(컨텍스트 관리 포함) 76.3% 기록
- SWE-Bench Verified 평가에서 M2.1보다 37% 빠른 속도로 작업 완료, Claude Opus 4.6과 동일한 처리 속도 달성
-
100TPS 기준 시간당 1달러, 50TPS 기준 0.3달러로 운영 가능, 비용 효율성이 극대화된 모델
코딩 성능
- 다국어 코딩 작업에서 SOTA 수준에 도달, 특히 10개 이상 언어(Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)에서 우수한 성능
- 코드 작성 전 시스템 설계·UI 구성·기능 분해를 수행하는 아키텍트형 사고 구조를 보유
-
200,000개 이상의 실제 환경에서 훈련되어, 버그 수정뿐 아니라 전체 개발 생애주기(설계→개발→기능 반복→테스트) 지원
-
VIBE-Pro 벤치마크에서 Opus 4.5와 유사한 성능, SWE-Bench Verified에서
- Droid: 79.7(M2.5) > 78.9(Opus 4.6)
- OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)
검색 및 도구 호출
- BrowseComp, Wide Search 등에서 업계 최고 수준 성능 달성
-
RISE(Realistic Interactive Search Evaluation) 을 통해 실제 전문가 수준의 검색 능력 검증
- 이전 세대 대비 20% 적은 검색 라운드로 동일 결과 도출, 토큰 효율성 향상
- 복잡한 에이전트 작업에서 정확한 탐색 경로와 효율적 추론 과정을 통해 결과 도출
오피스 작업 능력
-
금융·법률·사회과학 전문가와 협업해 데이터 구축 및 피드백 반영
- Word, PowerPoint, Excel 등에서 전문 문서·재무 모델링 수행 능력 강화
- 내부 평가 프레임워크 GDPval-MM에서 평균 59.0% 승률 기록
-
토큰 비용 대비 생산성 향상을 실측해 실제 업무 효율성 검증
효율성 및 속도
-
100TPS의 기본 처리 속도, 타 모델 대비 약 2배 빠름
- SWE-Bench Verified 기준
- M2.5: 평균 3.52M 토큰, 22.8분 소요
- M2.1: 3.72M 토큰, 31.3분 소요
-
37% 속도 향상, Claude Opus 4.6(22.9분) 과 동일 수준
-
비용은 Opus 4.6의 10% 수준
비용 구조
- 두 가지 버전 제공: M2.5-Lightning(100TPS) , M2.5(50TPS)
- Lightning: 입력 100만 토큰당 $0.3, 출력 100만 토큰당 $2.4
- M2.5: 위 요금의 절반
-
출력 기준 비용은 Opus, Gemini 3 Pro, GPT-5의 1/10~1/20 수준
- 100TPS로 1시간 연속 실행 시 $1, 50TPS 시 $0.3
-
연간 $10,000으로 4개 인스턴스 상시 운영 가능, 대규모 에이전트 운영에 적합
모델 개선 속도
- 3개월 반 동안 M2 → M2.1 → M2.5를 연속 출시, 개선 속도가 경쟁 모델군(Claude, GPT, Gemini)보다 빠름
- SWE-Bench Verified에서 가파른 성능 향상률 기록
강화학습 확장 (RL Scaling)
-
수십만 개의 RL 환경을 구축해 모델 훈련에 활용
-
에이전트형 RL 프레임워크 Forge를 자체 개발
- 훈련·추론 엔진과 에이전트를 완전히 분리
-
비동기 스케줄링 최적화 및 트리 병합 전략으로 훈련 속도 40배 향상
-
CISPO 알고리듬을 사용해 대규모 MoE 모델의 안정성 확보
-
프로세스 보상 메커니즘으로 긴 컨텍스트에서도 품질 모니터링
-
지능과 응답 속도의 균형을 위한 작업 시간 평가 체계 도입
MiniMax Agent 통합
- M2.5는 MiniMax Agent에 완전 통합되어 전문 직원 수준의 에이전트 경험 제공
-
Office Skills(Word, PowerPoint, Excel 등)를 자동 로드해 문서 품질 향상
- 사용자는 Office Skills와 산업별 전문 지식을 결합해 맞춤형 Expert 생성 가능
- 예: 연구 보고서 자동 작성, 재무 모델 자동 생성 및 검증
- 현재 10,000개 이상의 Expert가 구축되어 빠르게 증가 중
- MiniMax 내부에서 전체 업무의 30%를 M2.5가 자동 수행,
- R&D, 제품, 영업, 인사, 재무 등 전 부문 활용
-
신규 커밋 코드의 80%가 M2.5 생성 코드
부록: 평가 방법 요약
- SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC, Finance Modeling 등 다양한 내부·외부 벤치마크 사용
- 모든 테스트는 통일된 파이프라인과 여러 차례 반복 실행 평균값으로 산출
- 평가 환경에는 8코어 CPU, 16GB 메모리, 7200초 제한, 표준 도구 세트가 포함됨