- "Mi:dm"은 한국 사회의 언어/문화적 특성을 반영한 상업적 활용이 가능한 오픈소스 모델
- 고품질 한국어 데이터 선별과 합성 데이터 생성, 커리큘럼 러닝, 한국어 특화된 고유 토크나이저 등 다층적 최적화 전략을 사용
- 온디바이스용 mini(2.3B), 성능과 효율의 밸런스 base(11B), 프론티어급 pro(41B, 공개예정)의 3가지 모델
-
Mi:dm 2.0 Mini (2.3B): 경량화 모델로, 임베디드 환경과 특수 목적에 최적화
-
Mi:dm 2.0 Base (11.5B): 대규모 범용 모델, Depth-up Scaling 기법으로 기존 8B 모델을 심층화하여 성능 강화
- Base, Mini 모두 32K 토큰 입력 지원
-
KMMLU, HAERAE 등 한국어 벤치마크에서 최고 수준의 성능을 보이며, 연구/상업적 사용 모두 자유로운 MIT 라이선스로 공개
데이터 구성 및 전략
-
한국어 고품질 문서 확보에 중점, 맥락성, 가독성, 비유해성 기준으로 문서 선별
-
합성 데이터(번역, 키워드 기반 교재 생성, Chain-of-Thought 등)를 활용하여 도메인 다양성 확보
-
커리큘럼 러닝과 도메인 밸런싱으로 훈련 데이터의 불균형 해소
-
한국어 최적화 토크나이저로 압축 효율과 언어 구조 반영 강화
-
데이터 분류 체계
-
언어, 도메인, 데이터 소스, 표현/스타일 등 다차원 분류 체계 적용
-
6개 주요 도메인(인문, STEM, 응용과학, 건강/식품, 생활/문화, 기타)와 20개 하위 도메인
-
85.7% 이상을 자연적(organic) 데이터로 구성, 14%는 합성 데이터
-
품질 관리 파이프라인
-
8단계 대용량 웹문서 필터링: 중복제거, 휴리스틱, perplexity, 문자 손상/수정, 모델 기반 품질 필터, 유해성 필터, 라인 중복, PII 비식별화 등
- 각 소스별로 별도 정제 및 규칙 적용(예: 뉴스, 법률문서, 학술논문 등)
-
합성 데이터 생성
-
STEM, 경제 등 저커버리지 분야는 고신뢰 오픈소스 데이터를 시드로, 한국어 교재/설명/문제 등 합성하여 데이터 강화
-
불용(부적격) 웹문서도 핵심 주제만 추출·재작성하여 활용
-
영어 웹문서의 구조적 다양성을 한국어로 변환·확장하여 장문의 QA·작문 데이터 확보
-
Chain-of-Thought 데이터로 수학·코드 등 단계별 추론 학습 강화
모델 아키텍처 및 훈련
-
Transformer 디코더-only 구조
-
Base: 8B 모델 → Depth-up Scaling(32→48층) → 11.5B로 확장, 고품질 데이터로 2단계 연속 학습
-
Mini: Base의 지식을 width pruning과 다단계 distillation으로 경량화, 효율적 추론 가능
-
Long-context 학습으로 최대 32,768 토큰 입력 지원
-
GQA, SiLU, RoPE 등 최신 기술 반영
사용 후기 및 소개 글들