Kimi, 오픈소스 비주얼 SOTA-에이전틱 모델 Kimi K2.5 공개

1 week ago 6

  • Kimi K2.5는 약 15조 개의 시각·텍스트 토큰으로 추가 학습된 멀티모달 오픈소스 모델로, 코드 작성과 비전 처리 능력을 통합
  • 최대 100개의 하위 에이전트를 병렬로 제어하는 Agent Swarm 구조를 통해 복잡한 작업을 4.5배 빠르게 수행
  • Kimi CodeKimi App과 연동되어 이미지·영상 기반 코딩, 시각적 디버깅, 오피스 자동화 등 다양한 실무형 기능 지원
  • 내부 벤치마크에서 코딩·비전·오피스 생산성 전 영역에서 K2 대비 유의미한 성능 향상 기록
  • 오픈소스 커뮤니티에서 AGI(범용 인공지능) 로 향하는 실질적 진전을 보여주는 모델로 평가됨

Kimi K2.5 개요

  • Kimi K2.5는 K2 모델을 기반으로 약 15조 개의 혼합 시각·텍스트 토큰으로 추가 사전학습된 네이티브 멀티모달 모델
    • 코딩비전 기능을 통합하며, 자율적 에이전트 스웜(agent swarm) 패러다임을 구현
  • 최대 100개의 하위 에이전트가 병렬로 최대 1,500회 도구 호출을 수행하며, 단일 에이전트 대비 최대 4.5배 빠른 실행 시간 달성
  • Kimi.com, Kimi App, API, Kimi Code를 통해 제공되며, Instant·Thinking·Agent·Agent Swarm(베타) 모드 지원

코딩과 비전 통합

  • K2.5는 프론트엔드 개발에 강점을 가진 오픈소스 코딩 모델로, 대화형 인터페이스와 스크롤 트리거 애니메이션 등 복잡한 UI를 자동 생성
  • 이미지·영상 기반의 비주얼 코딩을 지원하여, 사용자가 시각적으로 의도를 표현하면 코드로 변환
    • 예시로, 영상에서 웹사이트를 재구성하거나 미로 이미지에서 BFS 알고리듬으로 최단 경로(113,557단계)를 탐색
  • 대규모 비전-텍스트 공동 학습을 통해 시각과 언어 능력이 함께 향상
  • 내부 Kimi Code Bench에서 빌드·디버깅·리팩토링·테스트 등 다언어 코딩 작업 전반에서 K2 대비 일관된 성능 향상
  • Kimi Code는 터미널 및 VSCode, Cursor, Zed 등 IDE와 통합되며, 이미지·영상 입력과 자동 스킬 마이그레이션 지원

Agent Swarm

  • K2.5 Agent Swarm은 단일 에이전트 확장이 아닌 병렬 협업형 구조로, Parallel-Agent Reinforcement Learning (PARL) 로 학습
    • 오케스트레이터 에이전트가 작업을 병렬 가능한 하위 작업으로 분해하고, 고정된 서브에이전트들이 동시에 실행
  • 보상 함수는 초기 병렬성 탐색을 유도하고 점차 작업 품질 Q(τ) 중심으로 전환
  • Critical Steps라는 지연 중심 지표를 도입해 병렬 실행의 효율성을 평가
  • 내부 평가에서 엔드투엔드 실행 시간 80% 단축, 복잡한 장기 작업 처리 능력 향상
    • 예시: 100개 세부 분야의 YouTube 크리에이터를 찾는 작업에서 100개의 서브에이전트를 병렬 생성해 결과를 통합

오피스 생산성

  • K2.5 Agent는 대규모 오피스 업무 자동화를 지원하며, 문서·스프레드시트·PDF·슬라이드 생성까지 대화형으로 처리
  • 내부 AI Office BenchmarkGeneral Agent Benchmark에서 각각 59.3% , 24.3% 향상
  • Word 주석 추가, Pivot Table 기반 재무 모델링, PDF 내 LaTeX 수식 작성 등 고급 작업 수행
  • 10,000단어 논문이나 100페이지 문서 생성 등 장문 작업을 수분 내 완료

결론

  • Kimi K2.5는 비전 기반 코딩, 에이전트 스웜, 오피스 자동화의 세 영역에서 진전을 보여, 실세계 제약 하의 AGI 접근을 실증
  • 향후 에이전틱 인텔리전스(agentic intelligence) 의 확장을 통해 지식 노동의 경계를 재정의할 계획

부록: 주요 벤치마크 결과

  • Reasoning, Vision, Coding, Agentic Search 등 7개 영역에서 GPT-5.2, Claude 4.5, Gemini 3 Pro 등과 비교
    • HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
    • MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
    • SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
    • BrowseComp (Swarm Mode) : 78.4
  • 대부분의 비전·코딩·에이전틱 검색 벤치마크에서 상위권 성능 기록
  • 모든 실험은 256k 토큰 컨텍스트, temperature=1.0, top-p=0.95 설정에서 수행
  • Kimi Vendor Verifier (KVV) 를 통해 제3자 서비스의 정확도 검증 가능

Read Entire Article