Cohere Transcribe - SOTA 오픈소스 음성 인식 모델

3 hours ago 1

영어,한국어,중국어 등 14개 언어를 지원하는 2B(20억) 파라미터 규모의 최신 자동 음성 인식(ASR) 모델
Conformer 기반 인코더-디코더 구조를 사용하며, Apache 2.0 라이선스로 배포됨
영어 기준 평균 단어 오류율(WER) 5.42% 로 Whisper Large v3 등 주요 경쟁 모델을 능가하며, Hugging Face Open ASR Leaderboard 1위를 기록
실제 환경 평가와 인간 평가 모두에서 높은 정확성과 일관성을 보였으며, 다국어 전사에서도 안정적 성능을 유지
낮은 지연과 높은 처리 효율을 동시에 달성해 실시간 제품과 워크플로우에 적합

Cohere Transcribe 개요

음성은 회의 기록, 음성 분석, 실시간 고객 지원 등 AI 기반 업무 자동화의 핵심 입력 형태로 부상 중
이 모델은 단어 오류율(WER) 최소화를 목표로 처음부터 새로 훈련되었으며, 연구용이 아닌 실제 서비스 환경에서의 사용을 염두에 둔 설계
GPU 및 로컬 환경에서도 효율적으로 추론 가능하며, Cohere의 관리형 추론 플랫폼 Model Vault에서도 이용 가능
Hugging Face의 Open ASR Leaderboard에서 정확도 1위를 기록하며, 실제 환경 전사 성능의 새로운 기준 제시

모델명은 cohere-transcribe-03-2026, Conformer 기반 인코더-디코더 구조 사용
- 입력은 오디오 파형을 log-Mel 스펙트로그램으로 변환, 출력은 전사된 텍스트
- 2B(20억) 파라미터 규모의 대형 Conformer 인코더가 음향 표현을 추출하고, 경량 Transformer 디코더가 토큰을 생성
표준 교차 엔트로피 손실을 사용해 처음부터 감독 학습으로 훈련
14개 언어 지원
- 유럽: 영어, 프랑스어, 독일어, 이탈리아어, 스페인어, 포르투갈어, 그리스어, 네덜란드어, 폴란드어
- 아시아·태평양: 중국어(표준어), 일본어, 한국어, 베트남어
- 중동·북아프리카: 아랍어
- Apache 2.0 라이선스로 공개

영어 음성 인식 정확도에서 최신 표준 달성, 평균 WER 5.42%로 공개·비공개 ASR 모델 중 최고 성능
- Whisper Large v3, ElevenLabs Scribe v2, Qwen3-ASR-1.7B 등 주요 경쟁 모델을 능가
다양한 실제 환경(다중 화자, 회의실 음향, 다양한 억양)에서도 강인한 성능 유지
주요 벤치마크 결과
- AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
- 평균 WER 5.42로 Zoom Scribe v1(5.47), IBM Granite 4.0(5.52), NVIDIA Canary Qwen 2.5B(5.63)보다 우수
Hugging Face Open ASR Leaderboard는 여러 데이터셋에서 표준화된 WER로 평가하며, 낮은 WER이 높은 전사 정확도를 의미

벤치마크 외 실제 환경 평가에서도 동일한 우수 성능 확인
- 숙련된 평가자가 실제 오디오 전사 결과를 정확성, 일관성, 사용성 기준으로 평가
- 자동 평가와 인간 평가 모두에서 일관된 우수 성능을 보임
영어 전사 품질 비교 평가에서 의미 보존, 환각(hallucination) 방지, 고유명사 인식, 서식 정확성 등에서 높은 선호도 획득
지원 언어별 인간 평가에서도 50% 이상 선호 비율을 기록, 다국어 환경에서도 안정적 성능 입증

실제 서비스 환경에서는 지연(latency) 과 처리량(throughput) 이 핵심 제약
- 정확도가 높더라도 느리거나 자원 소모가 크면 사용자 경험과 비용에 직접 영향
Cohere Transcribe는 1B+ 파라미터 모델군 중 최고 수준의 처리 효율을 유지하며, 낮은 WER과 높은 RTFx(실시간 처리 배수) 를 동시에 달성
RTFx는 오디오 입력을 실시간 대비 얼마나 빠르게 처리하는지를 나타내는 지표로, Transcribe는 정확도와 속도 모두에서 Pareto 최적선 확장
Radical Ventures의 평가
- Radical Ventures 부사장 Paige Dickie는 Transcribe의 속도와 품질을 높이 평가
- “몇 분짜리 오디오를 몇 초 만에 전사하며, 실시간 제품과 워크플로우의 새로운 가능성을 열었다”고 언급
- 일상적 음성에서도 강력하고 신뢰할 수 있는 전사 품질을 제공하며, 사용 경험이 원활했다고 평가

Cohere는 Transcribe를 AI 에이전트 오케스트레이션 플랫폼 North와 통합 예정
- 향후 Transcribe는 단순 전사 모델을 넘어 기업용 음성 인텔리전스 기반으로 확장될 계획

Hugging Face에서 모델 다운로드 가능하며, 로컬 또는 엣지 환경에서도 실행 가능
Cohere API를 통해 무료로 실험 가능하나, 요청 제한(rate limit) 존재
- 사용법과 통합 가이드는 공식 문서에서 제공
Model Vault를 이용하면 인프라 관리 없이 저지연·프라이빗 클라우드 추론 가능
- 시간 단위 인스턴스 요금제 적용, 장기 이용 시 할인 제공
- 기업용 배포 문의는 Cohere 영업팀을 통해 가능