Kimi K2는 최신 믹스처오브엑스퍼트(MoE) 언어 모델임

13 hours ago 1

  • Kimi K2는 1조 매개변수를 가진 최첨단 믹스처오브엑스퍼트(MoE) 언어 모델
  • 학습 과정에서 Muon 최적화 기법을 도입하여 대규모 안정성 문제를 해결함
  • 도구 사용, 추론, 자율적 문제 해결을 위해 에이전트 지능에 초점을 맞춤
  • 다양한 벤치마크에서 코딩, 수학, 일반 작업에서 상위권 성능을 입증함
  • 배포 및 활용이 편리하며, OpenAI/Anthropic 호환 API 제공 및 유연한 엔진 지원 환경임

왜 Kimi K2가 중요한가

Kimi K2는 Moonshot AI에서 개발한 최신 믹스처오브엑스퍼트(MoE) 언어 모델로, 1조 파라미터 규모와 혁신적인 최적화 방법(Muon)이 적용되어 대규모 언어 모델 영역에서 높은 성능과 안정성을 제공함. 기존 고성능 오픈소스 모델들과 비교 시, 코딩, 수학, 도구 사용 등 다양한 실제 적용 분야에서 글로벌 최첨단(SOTA) 및 오픈소스 최고 수준을 기록함. 대형 모델을 빠르고 안정적으로 학습하는 문제, 그리고 다양한 인공지능 활용 시나리오를 지원하는 유연성에서 강점을 가짐.

1. 모델 소개

  • Kimi K2는 1조(1T) 전체 파라미터와 320억(32B) 활성 파라미터를 갖춘 최첨단 MoE 언어 모델
  • Muon 옵티마이저를 사용해 대규모 모델 학습의 불안정을 효과적으로 해결함
  • 도구 활용, 복잡한 추론, 자율 에이전트 등 고차원적 능력에 특화함

주요 특징

  • 대규모 학습: 1조 파라미터 모델을 15.5조 토큰으로 사전학습하며, 학습 불안정성(unstability) 없이 진행함
  • MuonClip 옵티마이저: 대규모 모델에 특화된 Muon 알고리듬과 새로운 최적화 기법을 결합해 안정성 확보함
  • Agentic Intelligence: 도구 활용, 복잡한 추론, 자율 문제해결을 염두에 두고 설계함

모델 종류

  • Kimi-K2-Base: 커스텀 파인튜닝 및 연구자 활용에 적합한 기초 모델
  • Kimi-K2-Instruct: 채팅, 일반 에이전트 구동에 최적화된 사후학습(post-training) 모델

2. 모델 요약

  • 아키텍처: Mixture-of-Experts (MoE)
  • 총 파라미터: 1조(1,000,000,000,000)
  • 활성 파라미터: 32억(32B)
  • 레이어 수: 61 (Dense layer 포함)
  • Dense Layer 수: 1
  • Attention hidden dimension: 7168
  • MoE hidden dimension(전문가당) : 2048
  • Attention Head: 64
  • 전문가 개수: 384
  • 토큰당 선택되는 전문가 수: 8
  • 공유 전문가 수: 1
  • 어휘사이즈: 160K
  • 컨텍스트 길이: 128K
  • Attention 메커니즘: MLA
  • 활성화 함수: SwiGLU

3. 평가 결과

Instruction 모델 성능

  • 코딩 과제, 도구 활용, 수학/이공계, 일반 작업 등 다양한 벤치마크에서 상위권 성능을 기록함
  • SWE-bench, LiveCodeBench, OJBench, MultiPL-E, TerminalBench, AceBench, Tau2, AIME, MATH-500 등 각종 코드·도구, 수학·논리, 일반 작업 부문에서 SOTA 또는 동급 최고 성능 보임
  • SWE-bench Verified에서 pass@1 65.8%, SWE-bench Multilingual에서 47.3% 기록, Agentic Coding 환경에서도 두드러진 성과 보임
  • MATH-500(수학), AIME, HMMT, CNMO 등 이공계 테스트에서도 탁월한 정확도
  • MMLU(일반지식), SimpleQA 등 다양한 일반작업에서도 경쟁 오픈소스/상용 모델 대비 상위 성능 확보함

Base 모델 성능

  • MMLU, TriviaQA, GPQA-Diamond 등 대표 벤치마크에서 오픈소스 동급 모델 중 최상위 성적 기록
  • 코딩, 수학, 중국어 평가 등 대형 오픈소스 베이스모델 대비 전반적인 우위 확보함

4. 배포 및 엔진 구동

5. 모델 활용 예시

채팅 인터페이스

  • 로컬 추론 서비스 실행 후, OpenAI 호환 클라이언트(Chat Completions API 등)에서 직접 상호작용 가능함
  • 권장 temperature: 0.6, System 프롬프트도 기본 형태로 사용권장됨

도구 호출 기능

  • Kimi-K2-Instruct는 강력한 도구 호출(tool-calling) 능력을 가짐
  • 사용자는 요청마다 활용 가능한 툴 리스트를 전달하면, 모델이 자율적으로 도구 사용 및 실행 시점을 판단함
  • 파이프라인 전체에 걸친 예제 및 결과 메시지 시연 가능함
  • 엔진의 Kimi-K2 도구 파싱 로직 지원이 필요함

6. 라이선스

7. 문의

  • 기술 문의: support@moonshot.cn 이메일 지원

Read Entire Article