- MiniMax-M1은 세계 최초의 오픈-웨이트 대규모 하이브리드 어텐션 기반 추론 모델임
-
4560억 파라미터 규모의 하이브리드 MoE 구조와 라이팅 어텐션 메커니즘으로 긴 컨텍스트 처리에 탁월함
- RL 기반 학습과 CISPO 알고리듬 도입으로 다양한 문제를 효율적으로 해결 가능함
- 벤치마크 상에서 기존 DeepSeek-R1, Qwen3-235B 등과 비교해 복잡한 SW 엔지니어링, 툴 사용, 장문 입력 등에서 뛰어난 성능을 보임
- 다양한 추론 환경 및 지원 도구, API, 챗봇 제공으로 차세대 언어모델 에이전트의 기반으로 활용 가치가 높음
MiniMax-M1 오픈소스 프로젝트 개요
- MiniMax-M1은 세계 최초의 오픈-웨이트 대규모 하이브리드 어텐션 추론 모델로, 기존 상용·오픈 모델 대비 강력한 장점과 실전 활용성을 보여줌
- 대규모 하이브리드 Mixture-of-Experts(MoE) 구조와 라이팅 어텐션 메커니즘을 결합하여 긴 컨텍스트, 복잡한 추론, 소프트웨어 환경 문제 해결에 최적화
- 긴 맥락(최대 100만 토큰)을 효율적으로 지원하고, 테스트 시 연산량(100K 기준 DeepSeek-R1 대비 25% FLOPs)을 대폭 절감
- 최신 RL 기술, 신개념 CISPO 알고리듬과 하이브리드 어텐션 설계로 확장성과 추론 효율성 모두 극대화
1. 모델 개요
- MiniMax-M1은 하이브리드 Mixture-of-Experts(MoE) 구조와 라이팅 어텐션을 탑재함
- 전신인 MiniMax-Text-01(4560억 파라미터, 토큰당 459억 파라미터 활성화) 기반으로 개발됨
-
1백만 토큰의 컨텍스트 길이 지원(DeepSeek R1의 8배 컨텍스트 크기)
- 라이팅 어텐션으로 테스트 연산량 대폭 절감(DeepSeek R1 대비 25%)
- 긴 입력과 복잡한 추론이 요구되는 과업에 적합함
- 대규모 RL을 통한 수학적 추론, 실전 SW 엔지니어링 등 폭넓은 문제에 대한 학습 진행
- MiniMax-M1만의 RL 스케일링 프레임워크 제시
- CISPO 기법: 기존 RL 방식보다 우수한 중요도 샘플링 가중치 클리핑 알고리듬 도입
- 하이브리드 어텐션 기반으로 RL 효율성 및 확장성 강화
-
40K, 80K 사고 버짓 두 가지 모델로 학습/공개
- SW 엔지니어링, 툴 사용, 롱컨텍스트 작업 등에서 기존 DeepSeek-R1 및 Qwen3-235B 등 고성능 오픈모델 대비 탁월한 성능
- 실전 도전과제 해결을 위한 차세대 언어모델 에이전트 구축 기반 제공
2. 평가(Evaluation)
벤치마크 결과 주요 내용
-
수학, 코드, SW 엔지니어링, 장문 컨텍스트 분야에서 SOTA급 수준
- 타 오픈모델 대비 전반적으로 높은 스코어 달성, 특히 소프트웨어 벤치(SWE-bench) 및 롱컨텍스트에서 차별적 경쟁력
- 주목할 만한 항목 예시
- SWE-bench: 56.0(M1-80k) / 34.4(Qwen3) / 49.2(DeepSeek R1)
- OpenAI-MRCR(128k): 73.4(M1-80k) / 27.7(Qwen3) / 35.8(DeepSeek R1)
- LiveCodeBench, FullStackBench 등 SW 개발 relevant task에서 견고함
-
실행 환경: temperature 1.0, top_p 0.95에서 평가
- SWE-bench, TAU-bench 등 벤치마크에 대해 자체적인 절차와 설정(예: 파일 단위 이중 단계 로컬라이제이션, embedding 미사용) 기반 평가 시행
3. MiniMax-M1 모델 사용 가이드
최적 성능을 위한 권장 설정
3.1. 추론 파라미터
- Temperature: 1.0
- Top_p: 0.95
이 조합은 텍스트 다양성과 논리적 일관성을 동시에 확보하는 환경 제공
3.2. 시스템 프롬프트
-
일반 업무: "You are a helpful assistant."
-
웹 개발: UI 일체형 코드 산출 등 복잡한 웹 페이지 작업을 위한 특화 프롬프트 제시
-
수학적 추론: 단계별로 풀이 후 \boxed{}에 최종 답 기입
4. 배포 가이드
5. 함수 호출(함수형 인터페이스)
- MiniMax-M1은 함수 호출 기능 지원
- 외부 함수 필요 시 파라미터를 구조화된 형식으로 자동 출력
-
함수 호출 가이드 제공
6. Chatbot & API