Qwen3-TTS 패밀리 오픈소스 공개: 음성 디자인, 클론, 생성 기능 제공

2 weeks ago 8

  • Qwen3-TTS는 음성 복제, 음성 디자인, 초고품질 인간형 음성 생성, 자연어 기반 제어를 지원하는 다국어 음성 생성 모델 시리즈
  • 중국어,영어,일본어,한국어 등 10개 주요 언어 및 다양한 방언을 지원하며, 1.7B와 0.6B 두 가지 모델 크기로 제공
  • 자체 개발한 Qwen3-TTS-Tokenizer-12Hz 인코더를 통해 음성 신호를 효율적으로 압축하고, 비언어적 정보와 음향 환경을 완전 보존
  • Dual-Track 스트리밍 구조로 문자 1개 입력 후 첫 오디오 패킷을 즉시 출력하며, 97ms 지연의 실시간 합성 성능을 달성
  • 오픈소스 공개로 개발자와 기업이 고품질 음성 생성 기술을 직접 활용할 수 있음

Qwen3-TTS 개요

  • Qwen3-TTS는 Qwen이 개발한 고성능 음성 생성 모델 시리즈로, 음성 디자인·복제·생성·제어 기능을 통합 제공
    • 자연어 명령으로 음색, 감정, 억양 등을 제어 가능
    • Qwen API 및 GitHub를 통해 접근 가능
  • Qwen3-TTS-Tokenizer-12Hz 다중 코드북 인코더를 기반으로, 고속·고충실도의 음성 복원과 효율적 압축을 구현
  • Dual-Track 양방향 스트리밍으로 문자 단위 실시간 음성 출력 지원

모델 구성

  • 전체 모델은 1.7B0.6B 두 가지 크기로 제공
    • 1.7B: 최고 성능과 정밀 제어 기능 제공
    • 0.6B: 성능과 효율의 균형형
  • 두 모델 모두 중국어, 영어, 일본어, 한국어, 독일어, 프랑스어, 러시아어, 포르투갈어, 스페인어, 이탈리아어 지원
  • 3초 음성 입력으로 빠른 음성 클론 가능, 파인튜닝(FT)에도 활용 가능

주요 기술 특징

  • 고성능 음성 표현력
    • Qwen3-TTS-Tokenizer-12Hz로 음향 신호의 고차원 의미 모델링 및 압축 수행
    • 비언어적 정보와 환경음 보존, 경량 non-DiT 구조로 고속 복원 지원
  • 엔드투엔드 다중 코드북 구조
    • 기존 LM+DiT 방식의 정보 병목과 오류 누적 문제 제거
    • 모델 범용성, 생성 효율, 성능 한계치 향상
  • 초저지연 스트리밍 합성
    • Dual-Track 하이브리드 구조로 스트리밍·비스트리밍 동시 지원
    • 문자 1개 입력 후 첫 오디오 출력, 97ms 지연 달성
  • 지능형 텍스트 이해 및 음성 제어
    • 자연어 명령 기반으로 음색, 감정, 운율 등 다차원 속성 제어
    • 텍스트 의미에 따라 자동으로 톤과 리듬 조정

모델 성능 평가

  • 음성 디자인: InstructTTS-Eval 벤치마크에서 MiniMax-Voice-Design보다 높은 지시 수행력과 표현력 달성
  • 음성 제어: 단일 화자 다국어 일반화에서 WER 2.34% , 스타일 제어 점수 75.4% 기록
    • 10분 연속 합성에서도 중국어 WER 2.36%, 영어 2.81% 유지
  • 음성 복제: Seed-tts-eval에서 MiniMax, SeedTTS보다 안정적
    • 10개 언어 평균 WER 1.835%, 화자 유사도 0.789, CosyVoice3 초과 성능

Tokenizer 성능

  • LibriSpeech test-clean 세트 기준 SOTA 달성
    • PESQ: 광대역 3.21, 협대역 3.68
    • STOI: 0.96, UTMOS: 4.16
    • 화자 유사도 0.95로 거의 무손실 수준의 화자 정보 보존

음성 디자인 및 샘플

  • 자연어 설명을 기반으로 사용자 정의 음색 생성 가능
    • 성별, 나이, 감정, 억양 등 세밀한 속성 제어
    • 예시: 명령형 남성 음성, 감정적 여성 음성, 연령별 음색 등
  • Timbre Reuse 기능으로 생성된 음색을 저장·재사용 가능
    • 다화자 대화나 장편 내레이션에 활용 가능

CustomVoice 및 음색 제어

  • 화자별 파인튜닝 후에도 목표 음색 유지와 다국어 발화 가능
  • 단일 속성 및 다중 속성 제어 모두 지원
    • 예: 슬픔, 분노, 속삭임, 느린 말투 등 세밀한 감정 조절
  • 9가지 공개 음색 세트 제공
    • 중국어, 영어, 일본어, 한국어, 방언 포함
    • 예: 苏瑶(Serena), 福伯(Uncle Fu), 十三(Vivian), 甜茶(Ryan), 素熙(Sohee) 등

Voice Clone 및 다국어 복제

  • 3초 음성 입력으로 고속 음성 복제 수행
    • 중국어·영어 복제 외에도 교차 언어 복제 지원
    • 예: 일본어, 한국어 등 다국어 발화 가능
  • 텍스트 노이즈 강건성 확보
    • 복잡한 기호, 병음, 특수문자 포함 문장도 정확히 발음

Tokenizer 기반 오디오 복원

  • 방언, 노래, 비언어음, 배경음 등 다양한 음향 요소 복원 가능
  • 원본 대비 고충실도의 재구성 품질 입증

Read Entire Article