Kimi K2.7-Code: 토큰 효율이 개선된 오픈소스 코딩 모델

1 hour ago 1

장기 코딩 작업과 복잡한 소프트웨어 엔지니어링 워크플로를 다루는 에이전트형 코딩 모델로, Kimi K2.6 기반에서 엔드투엔드 작업 완료 능력과 토큰 사용 효율을 높였음
Kimi K2.6 대비 사고 토큰 사용량을 약 30% 줄였고, Kimi Code Bench v2는 50.9에서 62.0, MCP Mark Verified는 72.8에서 81.1로 상승함
모델 구조는 MoE 기반이며 총 1T 파라미터, 활성 32B 파라미터, 256K 컨텍스트 길이, MoonViT 비전 인코더를 갖춤
배포는 공식 API와 vLLM, SGLang, KTransformers를 대상으로 하며, Kimi-K2.5/Kimi-K2.6과 같은 아키텍처라 기존 배포 방식을 재사용할 수 있음
사용 시 Thinking 모드와 preserve_thinking이 강제되며, 이미지 입력을 지원하고 비디오 입력은 현재 공식 API에서만 실험적으로 지원됨

모델 개요

Kimi K2.7-Code는 Kimi K2.6 기반의 코딩 중심 에이전트 모델이며, 현실적인 장기 코딩 작업에서 개선됐음
복잡한 소프트웨어 엔지니어링 워크플로 전반에서 엔드투엔드 작업 완료 능력을 강화함
Kimi K2.6과 비교해 사고 토큰 사용량을 약 30% 줄여 토큰 효율을 높였음
이미지-텍스트 입력, Transformers, Safetensors, conversational, custom_code 등의 태그와 함께 제공됨

모델 요약

아키텍처는 Mixture-of-Experts(MoE) 이며 총 파라미터는 1T, 활성 파라미터는 32B임
레이어 수는 Dense 레이어 포함 61개이며, Dense 레이어는 1개임
Attention Hidden Dimension은 7168, MoE Hidden Dimension은 전문가당 2048임
Attention Head는 64개, Expert는 384개, 토큰당 선택 Expert는 8개, Shared Expert는 1개임
어휘 크기는 160K이고 컨텍스트 길이는 256K임
Attention 메커니즘은 MLA, 활성화 함수는 SwiGLU임
비전 인코더는 MoonViT이며, 비전 인코더 파라미터는 400M임

평가 결과

코딩 벤치마크
- Kimi Code Bench v2에서 Kimi K2.6은 50.9, Kimi K2.7 Code는 62.0, GPT-5.5는 69.0, Claude Opus 4.8은 67.4를 기록함
- Program Bench에서 Kimi K2.6은 48.3, Kimi K2.7 Code는 53.6, GPT-5.5는 69.1, Claude Opus 4.8은 63.8을 기록함
- MLS Bench Lite에서 Kimi K2.6은 26.7, Kimi K2.7 Code는 35.1, GPT-5.5는 35.5, Claude Opus 4.8은 42.8을 기록함
에이전트 벤치마크
- Kimi Claw 24/7 Bench에서 Kimi K2.6은 42.9, Kimi K2.7 Code는 46.9, GPT-5.5는 52.8, Claude Opus 4.8은 50.4를 기록함
- MCP Atlas에서 Kimi K2.6은 69.4, Kimi K2.7 Code는 76.0, GPT-5.5는 79.4, Claude Opus 4.8은 81.3을 기록함
- MCP Mark Verified에서 Kimi K2.6은 72.8, Kimi K2.7 Code는 81.1, GPT-5.5는 92.9, Claude Opus 4.8은 76.4를 기록함
평가 조건
- 별도 명시가 없으면 Kimi K2.7 Code와 K2.6은 Kimi Code CLI에서 Thinking 모드를 켜고 temperature 1.0, top-p 0.95, 262,144 토큰 컨텍스트 길이로 테스트됨
- GPT-5.5는 Codex의 xhigh 모드에서 실행됐고, Opus 4.8은 Claude Code의 xhigh 모드에서 실행됨
- 그 외 차이를 제외하면 모든 벤치마크는 같은 조건에서 평가됨
벤치마크 구성
- Kimi Code Bench V2는 현실적인 작업에서 코딩 에이전트를 평가하는 내부 벤치마크이며, 10개 이상 주요 프로그래밍 언어와 전체 프로덕션 기술 스택을 다룸
- Kimi Code Bench V2는 내부 엔지니어링 사용 사례, 프로덕션 장애, 실제 오픈소스 프로젝트의 작업을 포함함
- Program Bench는 컴파일된 바이너리와 문서만으로 프로그램 동작을 재현하도록 요구하며, 200개 작업과 248,000개 이상의 퍼즈 생성 동작 테스트를 사용함
- MLS-Bench는 AI 시스템이 일반화 가능하고 확장 가능한 ML 방법을 만들 수 있는지 평가하며, MLS-Bench-Lite는 공식 30개 작업 하위 집합임
- Kimi Claw 24/7 Bench는 지속적인 다일 공동 작업에서 장기 에이전트 성능을 평가하는 내부 벤치마크이며, 17개 전문 시나리오와 610개 평가 지점을 다룸
- MCP-Atlas는 확장 가능한 MCP를 통해 현실적인 도구 사용 작업에서 LLM 성능을 평가함
- MCPMark-Verified는 MCPMark의 사람 검증판이며 Notion, GitHub, Filesystem, Postgres, Playwright 등 5개 실제 서버 환경에서 MCP 도구 사용을 평가함

Native INT4 양자화

Kimi-K2.7-Code는 Kimi-K2-Thinking과 같은 native int4 양자화 방식을 채택함

배포

Kimi-K2.7-Code API는 https://platform.moonshot.ai 에서 접근할 수 있음
공식 API는 OpenAI/Anthropic 호환 API를 제공함
권장 추론 엔진은 vLLM, SGLang, KTransformers임
Kimi-K2.7-Code는 Kimi-K2.5/Kimi-K2.6과 같은 아키텍처라 배포 방식을 직접 재사용할 수 있음
transformers 버전 요구사항은 >=4.57.1, <5.0.0임
배포 예시는 Model Deployment Guide에서 확인할 수 있음

사용 방법

API 호출 기본 조건
- 사용 데모는 공식 API 호출 방식을 기준으로 함
- Kimi-K2.7-Code는 Thinking과 preserve_thinking을 True로 강제함
- vLLM 또는 SGLang으로 배포한 서드파티 API에서는 비디오 콘텐츠 채팅이 현재 공식 API에서만 지원되는 실험 기능임
- Thinking 모드의 권장 temperature는 1.0이고 권장 top_p는 0.95임
- Instant 모드는 지원되지 않음
Chat Completion
- Chat Completion 예시는 K2.7-Code API를 Thinking 모드로 호출함
- 예시 코드는 openai 클라이언트로 client.chat.completions.create를 호출하고 max_tokens=4096을 설정함
- 응답에서는 response.choices[0].message.reasoning과 response.choices[0].message.content를 출력함
시각 콘텐츠 입력
- K2.7-Code는 이미지와 비디오 입력을 지원함
- 이미지 입력 예시는 이미지를 base64로 인코딩해 image_url에 전달하고 max_tokens=8192로 응답을 생성함
- 비디오 입력 예시는 mp4 파일을 base64로 인코딩해 video_url에 전달함
- 비디오 채팅은 현재 공식 API에서만 지원되는 실험 기능임
Preserve Thinking
- Kimi K2.7 Code는 preserve_thinking 모드를 강제하며, 멀티턴 상호작용에서 전체 reasoning 콘텐츠를 유지함
- preserve_thinking은 코딩 에이전트 시나리오의 성능을 높임
- 이 기능은 기본으로 활성화되며 비활성화할 수 없음
- 일부 API는 reasoning_content를 지원하지 않을 수 있어 reasoning을 시도할 수 있음
Interleaved Thinking과 다단계 도구 호출
- K2.7-Code는 K2 Thinking과 같은 Interleaved Thinking 및 Multi-Step Tool Call 설계를 공유함
- 사용 예시는 K2 Thinking documentation를 참조함
코딩 에이전트 프레임워크
- Kimi K2.7-Code는 에이전트 프레임워크로 Kimi Code CLI와 함께 사용할 때 가장 잘 작동함
- Kimi Code CLI는 https://www.kimi.com/code 에서 제공됨

로컬 실행 예시

Transformers
- Transformers에서는 pipeline("image-text-to-text", model="moonshotai/Kimi-K2.7-Code", trust_remote_code=True) 방식으로 고수준 파이프라인을 만들 수 있음
- 모델 직접 로드는 AutoModel.from_pretrained("moonshotai/Kimi-K2.7-Code", trust_remote_code=True, dtype="auto") 방식으로 가능함
vLLM
- vLLM은 pip install vllm로 설치하고 vllm serve "moonshotai/Kimi-K2.7-Code"로 서버를 시작함
- 호출 예시는 OpenAI 호환 API 엔드포인트인 http://localhost:8000/v1/chat/completions를 사용함
- Docker Model Runner에서는 docker model run hf.co/moonshotai/Kimi-K2.7-Code로 실행함
SGLang
- SGLang은 pip install sglang으로 설치하고 python3 -m sglang.launch_server --model-path "moonshotai/Kimi-K2.7-Code"로 서버를 시작함
- 호출 예시는 OpenAI 호환 API 엔드포인트인 http://localhost:30000/v1/chat/completions를 사용함
- Docker 실행 예시는 GPU, 공유 메모리, Hugging Face 캐시, HF_TOKEN 환경변수를 설정함