MiniMax M2.5 출시 - 실제 업무 생산성을 위해 설계된 모델

1 month ago 17

강화학습 기반 대규모 훈련을 통해 실제 환경에서의 복잡한 작업 수행 능력을 높인 모델로, 코딩·검색·오피스 업무 등 경제적 가치가 높은 영역에서 최고 수준 성능을 기록
SWE-Bench Verified에서 80.2% , Multi-SWE-Bench에서 51.3% , BrowseComp에서 76.3% 를 달성하며, 이전 세대 대비 37% 빠른 속도를 보임
시간당 1달러(100TPS 기준) 의 저비용으로 운영 가능하며, 성능은 Claude Opus 4.6과 유사 수준
코딩·검색·오피스 작업 전반에서 구조적 사고, 효율적 검색, 전문가 수준 문서 작성 능력을 강화
MiniMax 내부에서도 전체 업무의 30%를 자동 수행, 코드 생성의 80%를 담당하며 실제 생산성 향상을 입증

M2.5 개요 및 주요 성능

M2.5는 수십만 개의 복잡한 실제 환경에서 강화학습으로 훈련된 모델로, 코딩·도구 활용·검색·사무 작업 등에서 SOTA 수준 달성
- SWE-Bench Verified 80.2%, Multi-SWE-Bench 51.3%, BrowseComp(컨텍스트 관리 포함) 76.3% 기록
SWE-Bench Verified 평가에서 M2.1보다 37% 빠른 속도로 작업 완료, Claude Opus 4.6과 동일한 처리 속도 달성
100TPS 기준 시간당 1달러, 50TPS 기준 0.3달러로 운영 가능, 비용 효율성이 극대화된 모델

코딩 성능

다국어 코딩 작업에서 SOTA 수준에 도달, 특히 10개 이상 언어(Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)에서 우수한 성능
코드 작성 전 시스템 설계·UI 구성·기능 분해를 수행하는 아키텍트형 사고 구조를 보유
200,000개 이상의 실제 환경에서 훈련되어, 버그 수정뿐 아니라 전체 개발 생애주기(설계→개발→기능 반복→테스트) 지원
VIBE-Pro 벤치마크에서 Opus 4.5와 유사한 성능, SWE-Bench Verified에서
- Droid: 79.7(M2.5) > 78.9(Opus 4.6)
- OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)

검색 및 도구 호출

BrowseComp, Wide Search 등에서 업계 최고 수준 성능 달성
RISE(Realistic Interactive Search Evaluation) 을 통해 실제 전문가 수준의 검색 능력 검증
이전 세대 대비 20% 적은 검색 라운드로 동일 결과 도출, 토큰 효율성 향상
복잡한 에이전트 작업에서 정확한 탐색 경로와 효율적 추론 과정을 통해 결과 도출

오피스 작업 능력

금융·법률·사회과학 전문가와 협업해 데이터 구축 및 피드백 반영
Word, PowerPoint, Excel 등에서 전문 문서·재무 모델링 수행 능력 강화
내부 평가 프레임워크 GDPval-MM에서 평균 59.0% 승률 기록
토큰 비용 대비 생산성 향상을 실측해 실제 업무 효율성 검증

효율성 및 속도

100TPS의 기본 처리 속도, 타 모델 대비 약 2배 빠름
SWE-Bench Verified 기준
- M2.5: 평균 3.52M 토큰, 22.8분 소요
- M2.1: 3.72M 토큰, 31.3분 소요
- 37% 속도 향상, Claude Opus 4.6(22.9분) 과 동일 수준
- 비용은 Opus 4.6의 10% 수준

비용 구조

두 가지 버전 제공: M2.5-Lightning(100TPS) , M2.5(50TPS)
- Lightning: 입력 100만 토큰당 $0.3, 출력 100만 토큰당 $2.4
- M2.5: 위 요금의 절반
출력 기준 비용은 Opus, Gemini 3 Pro, GPT-5의 1/10~1/20 수준
100TPS로 1시간 연속 실행 시 $1, 50TPS 시 $0.3
연간 $10,000으로 4개 인스턴스 상시 운영 가능, 대규모 에이전트 운영에 적합

모델 개선 속도

3개월 반 동안 M2 → M2.1 → M2.5를 연속 출시, 개선 속도가 경쟁 모델군(Claude, GPT, Gemini)보다 빠름
SWE-Bench Verified에서 가파른 성능 향상률 기록

강화학습 확장 (RL Scaling)

수십만 개의 RL 환경을 구축해 모델 훈련에 활용
에이전트형 RL 프레임워크 Forge를 자체 개발
- 훈련·추론 엔진과 에이전트를 완전히 분리
- 비동기 스케줄링 최적화 및 트리 병합 전략으로 훈련 속도 40배 향상
CISPO 알고리듬을 사용해 대규모 MoE 모델의 안정성 확보
프로세스 보상 메커니즘으로 긴 컨텍스트에서도 품질 모니터링
지능과 응답 속도의 균형을 위한 작업 시간 평가 체계 도입

MiniMax Agent 통합

M2.5는 MiniMax Agent에 완전 통합되어 전문 직원 수준의 에이전트 경험 제공
Office Skills(Word, PowerPoint, Excel 등)를 자동 로드해 문서 품질 향상
사용자는 Office Skills와 산업별 전문 지식을 결합해 맞춤형 Expert 생성 가능
- 예: 연구 보고서 자동 작성, 재무 모델 자동 생성 및 검증
현재 10,000개 이상의 Expert가 구축되어 빠르게 증가 중
MiniMax 내부에서 전체 업무의 30%를 M2.5가 자동 수행,
- R&D, 제품, 영업, 인사, 재무 등 전 부문 활용
- 신규 커밋 코드의 80%가 M2.5 생성 코드

부록: 평가 방법 요약

SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC, Finance Modeling 등 다양한 내부·외부 벤치마크 사용
모든 테스트는 통일된 파이프라인과 여러 차례 반복 실행 평균값으로 산출
평가 환경에는 8코어 CPU, 16GB 메모리, 7200초 제한, 표준 도구 세트가 포함됨

Read Entire Article