Kimi K2.7-Code: 토큰 효율이 개선된 오픈소스 코딩 모델

1 hour ago 1
  • 장기 코딩 작업과 복잡한 소프트웨어 엔지니어링 워크플로를 다루는 에이전트형 코딩 모델로, Kimi K2.6 기반에서 엔드투엔드 작업 완료 능력과 토큰 사용 효율을 높였음
  • Kimi K2.6 대비 사고 토큰 사용량을 약 30% 줄였고, Kimi Code Bench v2는 50.9에서 62.0, MCP Mark Verified는 72.8에서 81.1로 상승함
  • 모델 구조는 MoE 기반이며 총 1T 파라미터, 활성 32B 파라미터, 256K 컨텍스트 길이, MoonViT 비전 인코더를 갖춤
  • 배포는 공식 API와 vLLM, SGLang, KTransformers를 대상으로 하며, Kimi-K2.5/Kimi-K2.6과 같은 아키텍처라 기존 배포 방식을 재사용할 수 있음
  • 사용 시 Thinking 모드와 preserve_thinking이 강제되며, 이미지 입력을 지원하고 비디오 입력은 현재 공식 API에서만 실험적으로 지원됨

모델 개요

  • Kimi K2.7-Code는 Kimi K2.6 기반의 코딩 중심 에이전트 모델이며, 현실적인 장기 코딩 작업에서 개선됐음
  • 복잡한 소프트웨어 엔지니어링 워크플로 전반에서 엔드투엔드 작업 완료 능력을 강화함
  • Kimi K2.6과 비교해 사고 토큰 사용량을 약 30% 줄여 토큰 효율을 높였음
  • 이미지-텍스트 입력, Transformers, Safetensors, conversational, custom_code 등의 태그와 함께 제공됨

모델 요약

  • 아키텍처는 Mixture-of-Experts(MoE) 이며 총 파라미터는 1T, 활성 파라미터는 32B임
  • 레이어 수는 Dense 레이어 포함 61개이며, Dense 레이어는 1개임
  • Attention Hidden Dimension은 7168, MoE Hidden Dimension은 전문가당 2048임
  • Attention Head는 64개, Expert는 384개, 토큰당 선택 Expert는 8개, Shared Expert는 1개임
  • 어휘 크기는 160K이고 컨텍스트 길이는 256K
  • Attention 메커니즘은 MLA, 활성화 함수는 SwiGLU임
  • 비전 인코더는 MoonViT이며, 비전 인코더 파라미터는 400M임

평가 결과

  • 코딩 벤치마크

    • Kimi Code Bench v2에서 Kimi K2.6은 50.9, Kimi K2.7 Code는 62.0, GPT-5.5는 69.0, Claude Opus 4.8은 67.4를 기록함
    • Program Bench에서 Kimi K2.6은 48.3, Kimi K2.7 Code는 53.6, GPT-5.5는 69.1, Claude Opus 4.8은 63.8을 기록함
    • MLS Bench Lite에서 Kimi K2.6은 26.7, Kimi K2.7 Code는 35.1, GPT-5.5는 35.5, Claude Opus 4.8은 42.8을 기록함
  • 에이전트 벤치마크

    • Kimi Claw 24/7 Bench에서 Kimi K2.6은 42.9, Kimi K2.7 Code는 46.9, GPT-5.5는 52.8, Claude Opus 4.8은 50.4를 기록함
    • MCP Atlas에서 Kimi K2.6은 69.4, Kimi K2.7 Code는 76.0, GPT-5.5는 79.4, Claude Opus 4.8은 81.3을 기록함
    • MCP Mark Verified에서 Kimi K2.6은 72.8, Kimi K2.7 Code는 81.1, GPT-5.5는 92.9, Claude Opus 4.8은 76.4를 기록함
  • 평가 조건

    • 별도 명시가 없으면 Kimi K2.7 Code와 K2.6은 Kimi Code CLI에서 Thinking 모드를 켜고 temperature 1.0, top-p 0.95, 262,144 토큰 컨텍스트 길이로 테스트됨
    • GPT-5.5는 Codex의 xhigh 모드에서 실행됐고, Opus 4.8은 Claude Code의 xhigh 모드에서 실행됨
    • 그 외 차이를 제외하면 모든 벤치마크는 같은 조건에서 평가됨
  • 벤치마크 구성

    • Kimi Code Bench V2는 현실적인 작업에서 코딩 에이전트를 평가하는 내부 벤치마크이며, 10개 이상 주요 프로그래밍 언어와 전체 프로덕션 기술 스택을 다룸
    • Kimi Code Bench V2는 내부 엔지니어링 사용 사례, 프로덕션 장애, 실제 오픈소스 프로젝트의 작업을 포함함
    • Program Bench는 컴파일된 바이너리와 문서만으로 프로그램 동작을 재현하도록 요구하며, 200개 작업과 248,000개 이상의 퍼즈 생성 동작 테스트를 사용함
    • MLS-Bench는 AI 시스템이 일반화 가능하고 확장 가능한 ML 방법을 만들 수 있는지 평가하며, MLS-Bench-Lite는 공식 30개 작업 하위 집합임
    • Kimi Claw 24/7 Bench는 지속적인 다일 공동 작업에서 장기 에이전트 성능을 평가하는 내부 벤치마크이며, 17개 전문 시나리오와 610개 평가 지점을 다룸
    • MCP-Atlas는 확장 가능한 MCP를 통해 현실적인 도구 사용 작업에서 LLM 성능을 평가함
    • MCPMark-Verified는 MCPMark의 사람 검증판이며 Notion, GitHub, Filesystem, Postgres, Playwright 등 5개 실제 서버 환경에서 MCP 도구 사용을 평가함

Native INT4 양자화

  • Kimi-K2.7-Code는 Kimi-K2-Thinking과 같은 native int4 양자화 방식을 채택함

배포

  • Kimi-K2.7-Code API는 https://platform.moonshot.ai 에서 접근할 수 있음
  • 공식 API는 OpenAI/Anthropic 호환 API를 제공함
  • 권장 추론 엔진은 vLLM, SGLang, KTransformers임
  • Kimi-K2.7-Code는 Kimi-K2.5/Kimi-K2.6과 같은 아키텍처라 배포 방식을 직접 재사용할 수 있음
  • transformers 버전 요구사항은 >=4.57.1, <5.0.0임
  • 배포 예시는 Model Deployment Guide에서 확인할 수 있음

사용 방법

  • API 호출 기본 조건

    • 사용 데모는 공식 API 호출 방식을 기준으로 함
    • Kimi-K2.7-Code는 Thinking과 preserve_thinking을 True로 강제함
    • vLLM 또는 SGLang으로 배포한 서드파티 API에서는 비디오 콘텐츠 채팅이 현재 공식 API에서만 지원되는 실험 기능임
    • Thinking 모드의 권장 temperature는 1.0이고 권장 top_p는 0.95임
    • Instant 모드는 지원되지 않음
  • Chat Completion

    • Chat Completion 예시는 K2.7-Code API를 Thinking 모드로 호출함
    • 예시 코드는 openai 클라이언트로 client.chat.completions.create를 호출하고 max_tokens=4096을 설정함
    • 응답에서는 response.choices[0].message.reasoning과 response.choices[0].message.content를 출력함
  • 시각 콘텐츠 입력

    • K2.7-Code는 이미지와 비디오 입력을 지원함
    • 이미지 입력 예시는 이미지를 base64로 인코딩해 image_url에 전달하고 max_tokens=8192로 응답을 생성함
    • 비디오 입력 예시는 mp4 파일을 base64로 인코딩해 video_url에 전달함
    • 비디오 채팅은 현재 공식 API에서만 지원되는 실험 기능임
  • Preserve Thinking

    • Kimi K2.7 Code는 preserve_thinking 모드를 강제하며, 멀티턴 상호작용에서 전체 reasoning 콘텐츠를 유지함
    • preserve_thinking은 코딩 에이전트 시나리오의 성능을 높임
    • 이 기능은 기본으로 활성화되며 비활성화할 수 없음
    • 일부 API는 reasoning_content를 지원하지 않을 수 있어 reasoning을 시도할 수 있음
  • Interleaved Thinking과 다단계 도구 호출

    • K2.7-Code는 K2 Thinking과 같은 Interleaved Thinking 및 Multi-Step Tool Call 설계를 공유함
    • 사용 예시는 K2 Thinking documentation를 참조함
  • 코딩 에이전트 프레임워크

    • Kimi K2.7-Code는 에이전트 프레임워크로 Kimi Code CLI와 함께 사용할 때 가장 잘 작동함
    • Kimi Code CLI는 https://www.kimi.com/code 에서 제공됨

로컬 실행 예시

  • Transformers

    • Transformers에서는 pipeline("image-text-to-text", model="moonshotai/Kimi-K2.7-Code", trust_remote_code=True) 방식으로 고수준 파이프라인을 만들 수 있음
    • 모델 직접 로드는 AutoModel.from_pretrained("moonshotai/Kimi-K2.7-Code", trust_remote_code=True, dtype="auto") 방식으로 가능함
  • vLLM

    • vLLM은 pip install vllm로 설치하고 vllm serve "moonshotai/Kimi-K2.7-Code"로 서버를 시작함
    • 호출 예시는 OpenAI 호환 API 엔드포인트인 http://localhost:8000/v1/chat/completions를 사용함
    • Docker Model Runner에서는 docker model run hf.co/moonshotai/Kimi-K2.7-Code로 실행함
  • SGLang

    • SGLang은 pip install sglang으로 설치하고 python3 -m sglang.launch_server --model-path "moonshotai/Kimi-K2.7-Code"로 서버를 시작함
    • 호출 예시는 OpenAI 호환 API 엔드포인트인 http://localhost:30000/v1/chat/completions를 사용함
    • Docker 실행 예시는 GPU, 공유 메모리, Hugging Face 캐시, HF_TOKEN 환경변수를 설정함

라이선스

Read Entire Article