-
머큐리는 확산(Diffusion) 방식을 활용한 새로운 상용 대규모 언어 모델(LLM)
- 이 모델은 Transformer 구조에 기반하여 여러 토큰을 병렬로 예측하는 특징이 있음
-
머큐리 코더는 첫 확산 LLM 세트로, 코드 작성용으로 개발되고, Mini와 Small 두 가지 크기로 제공됨
- NVIDIA H100 GPU에서 1109(미니), 737(스몰) 토큰/초의 처리량을 기록하며, 동일 품질에서 기존 속도 중심 모델 대비 최대 10배 빠른 성능을 나타냄
- 실 사용 벤치마크 및 Copilot Arena 등 개발자 평가에서도 2위 품질 및 최고 속도를 기록하고, 공개 API 와 플레이그라운드도 제공함
개요
-
머큐리(Mercury) 는 확산(diffusion)에 기반한 신규 대규모 언어 모델 시리즈로, 상업적 규모에서 작동하는 신세대 LLM임
- 모든 모델은 Transformer 아키텍처에 파라미터화되어 있고, 여러 개의 토큰을 병렬로 예측하도록 학습함
- 본 보고서에서는 주로 코드 생성 앱을 위해 설계된 머큐리 코더(Mercury Coder) 의 첫 라인업을 소개함
- 머큐리 코더는 현재 Mini와 Small 두 가지 모델 크기로 제공됨
주요 기여
- 머큐리 코더는 속도와 품질 균형에서 새로운 state-of-the-art 수준을 달성함
- 외부 평가 기관인 Artificial Analysis 기준:
- Mercury Coder Mini: 초당 1109 토큰
- Mercury Coder Small: 초당 737 토큰 성능을 NVIDIA H100 GPU에서 기록함
- 최고 속도 프론티어 모델 대비 평균 최대 10배 빠름과 유사한 품질을 보임
- 다양한 프로그래밍 언어 및 활용 사례의 코드 벤치마크에서 추가적인 평가 결과도 제공함
- 실제 개발자 환경(Copilot Arena)에서도
-
품질 기준 2위
-
속도 기준 전체 1위 기록 실현함
- 누구나 활용할 수 있는 공개 API ( platform.inceptionlabs.ai ) 와 무료 챗 플레이그라운드( chat.inceptionlabs.ai ) 를 지원함
목차 구조 설명
- Introduction(소개)
- Inception Mercury Model Family(모델 계열 설명)
- 학습 과정(Training)
- 추론 방법(Inference)
- Capabilities(모델 기능)
- 기준선 성능(Baselines)
- 코드 생성 능력(Coding Capabilities)
- 평가 벤치마크(Evaluation Benchmarks)
정리
- 머큐리는 혁신적인 확산 기반 LLM 설계와 병렬 예측 구조를 조합하여, 코드 생성 분야에서 압도적인 속도 및 높은 품질을 실현함
- 다양한 크기의 모델과 강력한 실 서비스 벤치마크, 쉬운 접근성을 통해 상용 및 개발 환경 모두에 경쟁력 있는 선택지를 제공함