Cohere Transcribe - SOTA 오픈소스 음성 인식 모델

3 hours ago 1
  • 영어,한국어,중국어 등 14개 언어를 지원하는 2B(20억) 파라미터 규모의 최신 자동 음성 인식(ASR) 모델
  • Conformer 기반 인코더-디코더 구조를 사용하며, Apache 2.0 라이선스로 배포됨
  • 영어 기준 평균 단어 오류율(WER) 5.42% 로 Whisper Large v3 등 주요 경쟁 모델을 능가하며, Hugging Face Open ASR Leaderboard 1위를 기록
  • 실제 환경 평가와 인간 평가 모두에서 높은 정확성과 일관성을 보였으며, 다국어 전사에서도 안정적 성능을 유지
  • 낮은 지연과 높은 처리 효율을 동시에 달성해 실시간 제품과 워크플로우에 적합

Cohere Transcribe 개요

  • 음성은 회의 기록, 음성 분석, 실시간 고객 지원 등 AI 기반 업무 자동화의 핵심 입력 형태로 부상 중
  • 이 모델은 단어 오류율(WER) 최소화를 목표로 처음부터 새로 훈련되었으며, 연구용이 아닌 실제 서비스 환경에서의 사용을 염두에 둔 설계
  • GPU 및 로컬 환경에서도 효율적으로 추론 가능하며, Cohere의 관리형 추론 플랫폼 Model Vault에서도 이용 가능
  • Hugging Face의 Open ASR Leaderboard에서 정확도 1위를 기록하며, 실제 환경 전사 성능의 새로운 기준 제시

모델 구조

  • 모델명은 cohere-transcribe-03-2026, Conformer 기반 인코더-디코더 구조 사용
    • 입력은 오디오 파형을 log-Mel 스펙트로그램으로 변환, 출력은 전사된 텍스트
    • 2B(20억) 파라미터 규모의 대형 Conformer 인코더가 음향 표현을 추출하고, 경량 Transformer 디코더가 토큰을 생성
  • 표준 교차 엔트로피 손실을 사용해 처음부터 감독 학습으로 훈련
  • 14개 언어 지원

    • 유럽: 영어, 프랑스어, 독일어, 이탈리아어, 스페인어, 포르투갈어, 그리스어, 네덜란드어, 폴란드어
    • 아시아·태평양: 중국어(표준어), 일본어, 한국어, 베트남어
    • 중동·북아프리카: 아랍어
    • Apache 2.0 라이선스로 공개

모델 성능

  • 영어 음성 인식 정확도에서 최신 표준 달성, 평균 WER 5.42%로 공개·비공개 ASR 모델 중 최고 성능
    • Whisper Large v3, ElevenLabs Scribe v2, Qwen3-ASR-1.7B 등 주요 경쟁 모델을 능가
  • 다양한 실제 환경(다중 화자, 회의실 음향, 다양한 억양)에서도 강인한 성능 유지
  • 주요 벤치마크 결과
    • AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
    • 평균 WER 5.42로 Zoom Scribe v1(5.47), IBM Granite 4.0(5.52), NVIDIA Canary Qwen 2.5B(5.63)보다 우수
  • Hugging Face Open ASR Leaderboard는 여러 데이터셋에서 표준화된 WER로 평가하며, 낮은 WER이 높은 전사 정확도를 의미

인간 평가 결과

  • 벤치마크 외 실제 환경 평가에서도 동일한 우수 성능 확인
    • 숙련된 평가자가 실제 오디오 전사 결과를 정확성, 일관성, 사용성 기준으로 평가
    • 자동 평가와 인간 평가 모두에서 일관된 우수 성능을 보임
  • 영어 전사 품질 비교 평가에서 의미 보존, 환각(hallucination) 방지, 고유명사 인식, 서식 정확성 등에서 높은 선호도 획득
  • 지원 언어별 인간 평가에서도 50% 이상 선호 비율을 기록, 다국어 환경에서도 안정적 성능 입증

처리 속도 및 효율성

  • 실제 서비스 환경에서는 지연(latency)처리량(throughput) 이 핵심 제약
    • 정확도가 높더라도 느리거나 자원 소모가 크면 사용자 경험과 비용에 직접 영향
  • Cohere Transcribe는 1B+ 파라미터 모델군 중 최고 수준의 처리 효율을 유지하며, 낮은 WER과 높은 RTFx(실시간 처리 배수) 를 동시에 달성
  • RTFx는 오디오 입력을 실시간 대비 얼마나 빠르게 처리하는지를 나타내는 지표로, Transcribe는 정확도와 속도 모두에서 Pareto 최적선 확장
  • Radical Ventures의 평가

    • Radical Ventures 부사장 Paige Dickie는 Transcribe의 속도와 품질을 높이 평가
    • “몇 분짜리 오디오를 몇 초 만에 전사하며, 실시간 제품과 워크플로우의 새로운 가능성을 열었다”고 언급
    • 일상적 음성에서도 강력하고 신뢰할 수 있는 전사 품질을 제공하며, 사용 경험이 원활했다고 평가

향후 발전 방향

  • Cohere는 Transcribe를 AI 에이전트 오케스트레이션 플랫폼 North와 통합 예정
    • 향후 Transcribe는 단순 전사 모델을 넘어 기업용 음성 인텔리전스 기반으로 확장될 계획

사용 및 배포

  • Hugging Face에서 모델 다운로드 가능하며, 로컬 또는 엣지 환경에서도 실행 가능
  • Cohere API를 통해 무료로 실험 가능하나, 요청 제한(rate limit) 존재
    • 사용법과 통합 가이드는 공식 문서에서 제공
  • Model Vault를 이용하면 인프라 관리 없이 저지연·프라이빗 클라우드 추론 가능
    • 시간 단위 인스턴스 요금제 적용, 장기 이용 시 할인 제공
    • 기업용 배포 문의는 Cohere 영업팀을 통해 가능
Read Entire Article