Mercury - Diffusion 기반 초고속 언어 모델

20 hours ago 1

  • 머큐리는 확산(Diffusion) 방식을 활용한 새로운 상용 대규모 언어 모델(LLM)
  • 이 모델은 Transformer 구조에 기반하여 여러 토큰을 병렬로 예측하는 특징이 있음
  • 머큐리 코더는 첫 확산 LLM 세트로, 코드 작성용으로 개발되고, Mini와 Small 두 가지 크기로 제공됨
  • NVIDIA H100 GPU에서 1109(미니), 737(스몰) 토큰/초의 처리량을 기록하며, 동일 품질에서 기존 속도 중심 모델 대비 최대 10배 빠른 성능을 나타냄
  • 실 사용 벤치마크 및 Copilot Arena 등 개발자 평가에서도 2위 품질 및 최고 속도를 기록하고, 공개 API플레이그라운드도 제공함

개요

  • 머큐리(Mercury)확산(diffusion)에 기반한 신규 대규모 언어 모델 시리즈로, 상업적 규모에서 작동하는 신세대 LLM임
  • 모든 모델은 Transformer 아키텍처에 파라미터화되어 있고, 여러 개의 토큰을 병렬로 예측하도록 학습함
  • 본 보고서에서는 주로 코드 생성 앱을 위해 설계된 머큐리 코더(Mercury Coder) 의 첫 라인업을 소개함
  • 머큐리 코더는 현재 MiniSmall 두 가지 모델 크기로 제공됨

주요 기여

  • 머큐리 코더는 속도와 품질 균형에서 새로운 state-of-the-art 수준을 달성함
  • 외부 평가 기관인 Artificial Analysis 기준:
    • Mercury Coder Mini: 초당 1109 토큰
    • Mercury Coder Small: 초당 737 토큰 성능을 NVIDIA H100 GPU에서 기록함
    • 최고 속도 프론티어 모델 대비 평균 최대 10배 빠름과 유사한 품질을 보임
  • 다양한 프로그래밍 언어 및 활용 사례의 코드 벤치마크에서 추가적인 평가 결과도 제공함
  • 실제 개발자 환경(Copilot Arena)에서도
    • 품질 기준 2위
    • 속도 기준 전체 1위 기록 실현함
  • 누구나 활용할 수 있는 공개 API ( platform.inceptionlabs.ai )무료 챗 플레이그라운드( chat.inceptionlabs.ai ) 를 지원함

목차 구조 설명

  • Introduction(소개)
    • 주요 기여(Contributions)
  • Inception Mercury Model Family(모델 계열 설명)
    • 학습 과정(Training)
    • 추론 방법(Inference)
  • Capabilities(모델 기능)
    • 기준선 성능(Baselines)
    • 코드 생성 능력(Coding Capabilities)
      • 평가 벤치마크(Evaluation Benchmarks)

정리

  • 머큐리는 혁신적인 확산 기반 LLM 설계와 병렬 예측 구조를 조합하여, 코드 생성 분야에서 압도적인 속도 및 높은 품질을 실현함
  • 다양한 크기의 모델과 강력한 실 서비스 벤치마크, 쉬운 접근성을 통해 상용 및 개발 환경 모두에 경쟁력 있는 선택지를 제공함

Read Entire Article