MiniMax M2.5 출시 - 실제 업무 생산성을 위해 설계된 모델

1 month ago 17

  • 강화학습 기반 대규모 훈련을 통해 실제 환경에서의 복잡한 작업 수행 능력을 높인 모델로, 코딩·검색·오피스 업무 등 경제적 가치가 높은 영역에서 최고 수준 성능을 기록
  • SWE-Bench Verified에서 80.2% , Multi-SWE-Bench에서 51.3% , BrowseComp에서 76.3% 를 달성하며, 이전 세대 대비 37% 빠른 속도를 보임
  • 시간당 1달러(100TPS 기준) 의 저비용으로 운영 가능하며, 성능은 Claude Opus 4.6과 유사 수준
  • 코딩·검색·오피스 작업 전반에서 구조적 사고, 효율적 검색, 전문가 수준 문서 작성 능력을 강화
  • MiniMax 내부에서도 전체 업무의 30%를 자동 수행, 코드 생성의 80%를 담당하며 실제 생산성 향상을 입증

M2.5 개요 및 주요 성능

  • M2.5는 수십만 개의 복잡한 실제 환경에서 강화학습으로 훈련된 모델로, 코딩·도구 활용·검색·사무 작업 등에서 SOTA 수준 달성
    • SWE-Bench Verified 80.2%, Multi-SWE-Bench 51.3%, BrowseComp(컨텍스트 관리 포함) 76.3% 기록
  • SWE-Bench Verified 평가에서 M2.1보다 37% 빠른 속도로 작업 완료, Claude Opus 4.6과 동일한 처리 속도 달성
  • 100TPS 기준 시간당 1달러, 50TPS 기준 0.3달러로 운영 가능, 비용 효율성이 극대화된 모델

코딩 성능

  • 다국어 코딩 작업에서 SOTA 수준에 도달, 특히 10개 이상 언어(Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)에서 우수한 성능
  • 코드 작성 전 시스템 설계·UI 구성·기능 분해를 수행하는 아키텍트형 사고 구조를 보유
  • 200,000개 이상의 실제 환경에서 훈련되어, 버그 수정뿐 아니라 전체 개발 생애주기(설계→개발→기능 반복→테스트) 지원
  • VIBE-Pro 벤치마크에서 Opus 4.5와 유사한 성능, SWE-Bench Verified에서
    • Droid: 79.7(M2.5) > 78.9(Opus 4.6)
    • OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)

검색 및 도구 호출

  • BrowseComp, Wide Search 등에서 업계 최고 수준 성능 달성
  • RISE(Realistic Interactive Search Evaluation) 을 통해 실제 전문가 수준의 검색 능력 검증
  • 이전 세대 대비 20% 적은 검색 라운드로 동일 결과 도출, 토큰 효율성 향상
  • 복잡한 에이전트 작업에서 정확한 탐색 경로와 효율적 추론 과정을 통해 결과 도출

오피스 작업 능력

  • 금융·법률·사회과학 전문가와 협업해 데이터 구축 및 피드백 반영
  • Word, PowerPoint, Excel 등에서 전문 문서·재무 모델링 수행 능력 강화
  • 내부 평가 프레임워크 GDPval-MM에서 평균 59.0% 승률 기록
  • 토큰 비용 대비 생산성 향상을 실측해 실제 업무 효율성 검증

효율성 및 속도

  • 100TPS의 기본 처리 속도, 타 모델 대비 약 2배 빠름
  • SWE-Bench Verified 기준
    • M2.5: 평균 3.52M 토큰, 22.8분 소요
    • M2.1: 3.72M 토큰, 31.3분 소요
    • 37% 속도 향상, Claude Opus 4.6(22.9분) 과 동일 수준
    • 비용은 Opus 4.6의 10% 수준

비용 구조

  • 두 가지 버전 제공: M2.5-Lightning(100TPS) , M2.5(50TPS)
    • Lightning: 입력 100만 토큰당 $0.3, 출력 100만 토큰당 $2.4
    • M2.5: 위 요금의 절반
  • 출력 기준 비용은 Opus, Gemini 3 Pro, GPT-5의 1/10~1/20 수준
  • 100TPS로 1시간 연속 실행 시 $1, 50TPS 시 $0.3
  • 연간 $10,000으로 4개 인스턴스 상시 운영 가능, 대규모 에이전트 운영에 적합

모델 개선 속도

  • 3개월 반 동안 M2 → M2.1 → M2.5를 연속 출시, 개선 속도가 경쟁 모델군(Claude, GPT, Gemini)보다 빠름
  • SWE-Bench Verified에서 가파른 성능 향상률 기록

강화학습 확장 (RL Scaling)

  • 수십만 개의 RL 환경을 구축해 모델 훈련에 활용
  • 에이전트형 RL 프레임워크 Forge를 자체 개발
    • 훈련·추론 엔진과 에이전트를 완전히 분리
    • 비동기 스케줄링 최적화트리 병합 전략으로 훈련 속도 40배 향상
  • CISPO 알고리듬을 사용해 대규모 MoE 모델의 안정성 확보
  • 프로세스 보상 메커니즘으로 긴 컨텍스트에서도 품질 모니터링
  • 지능과 응답 속도의 균형을 위한 작업 시간 평가 체계 도입

MiniMax Agent 통합

  • M2.5는 MiniMax Agent에 완전 통합되어 전문 직원 수준의 에이전트 경험 제공
  • Office Skills(Word, PowerPoint, Excel 등)를 자동 로드해 문서 품질 향상
  • 사용자는 Office Skills와 산업별 전문 지식을 결합해 맞춤형 Expert 생성 가능
    • 예: 연구 보고서 자동 작성, 재무 모델 자동 생성 및 검증
  • 현재 10,000개 이상의 Expert가 구축되어 빠르게 증가 중
  • MiniMax 내부에서 전체 업무의 30%를 M2.5가 자동 수행,
    • R&D, 제품, 영업, 인사, 재무 등 전 부문 활용
    • 신규 커밋 코드의 80%가 M2.5 생성 코드

부록: 평가 방법 요약

  • SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC, Finance Modeling 등 다양한 내부·외부 벤치마크 사용
  • 모든 테스트는 통일된 파이프라인여러 차례 반복 실행 평균값으로 산출
  • 평가 환경에는 8코어 CPU, 16GB 메모리, 7200초 제한, 표준 도구 세트가 포함됨

Read Entire Article