Chatterbox TTS

2 days ago 1

  • Chatterbox는 Resemble AI가 공개한 최신 오픈소스 TTS(음성 합성) 모델임
  • 경쟁사인 ElevenLabs와 비교 평가에서 지속적으로 선호 결과를 보임
  • 감정 과장 제어 등 독자적인 기능을 탑재해 다양한 음성 표현 가능함
  • 5억 개 파라미터 Llama 백본과 50만 시간의 정제된 데이터로 훈련 진행함
  • 모든 생성 음성에 Perth 워터마킹 내장으로 무단 사용 및 위변조 방지 지원함

Chatterbox TTS 소개 및 중요성

  • Chatterbox는 Resemble AI에서 개발한 생산 환경 등급의 오픈소스 TTS(텍스트 음성 변환) 모델임
  • MIT 라이선스를 적용해 자유롭게 활용 가능, 닫힌 소스 상용 모델(예: ElevenLabs)과 비교시에도 우수한 품질을 입증 받은 결과 공개함
  • 동영상, 밈, 게임, AI 에이전트 등 콘텐츠 제작 전반에 적용 가능, 오픈소스 TTS 최초로 감정 과장 제어 기능을 제공함
  • Hugging Face Gradio 앱이나 자체 API로 시연 및 실사용 가능, 대규모 또는 높은 정확도 필요시 상용 API(200ms 이하 초저지연) 제공함

주요 특징

  • 최첨단 제로샷 TTS: 별도의 데이터 없이도 다양한 화자 스타일 표현 가능
  • 0.5B Llama 백본: 대형 언어 모델 구조를 음성 합성에 접목함
  • 감정 과장/강도 조절: 각 화자별 개성/감정의 강도를 세밀하게 제어할 수 있는 기능 제공
  • Alignment-informed inference: 음소와 오디오 정렬 정보를 반영해 초고안정 생성 품질 구현
  • 0.5M 시간 정제 데이터: 대규모/고품질 음성 데이터셋으로 학습 진행
  • 내장 워터마킹: Resemble AI의 Perth(Perceptual Threshold) 워터마킹으로 생성물 추적·무단사용 방지
  • 음성 변환 스크립트: 손쉽게 사용 가능한 voice conversion 기능 내장
  • 성능 검증: ElevenLabs 대비 우수 평가 결과 확보

사용 팁

  • 일반 TTS/음성 에이전트: 기본값(Exaggeration=0.5, cfg_weight=0.5)으로 대부분 상황에서 균형 잡힌 품질 구현
    • 빠른 화자 스타일일 경우 cfg_weight 값을 0.3 부근으로 조절 시 더 자연스러운 속도 제공
  • 감정적/극적인 음성 합성: Exaggeration을 0.7 이상으로 높이고 cfg_weight 감소 시 극적인 발화 효과 강화
    • 감정 강도(exaggeration)가 높을수록 발화 속도 빨라짐, cfg_weight를 낮추면 더 천천히 또렷한 발화 조정 가능

지원 언어

  • 현재는 영어만 지원

참고/의존 오픈소스

  • Cosyvoice, Real-Time-Voice-Cloning, HiFT-GAN, Llama 3, S3Tokenizer 등 다양한 최신 음성·언어 모델 기술 반영함

Perth 워터마킹 내장

  • Perth(Perceptual Threshold) 워터마킹: 모든 생성 음성에 오디오 품질 저하 없는 신경망 워터마크를 삽입함
  • 워터마크는 MP3 압축, 오디오 편집, 가공에도 유지됨
  • 정확도 100%에 가까운 자동 탐지 가능, 원본 추적·위변조 방지 및 책임감 있는 AI 사용 지원

워터마크 추출 예시

  • 별도 스크립트로 해당 워터마크 포함 여부 검증 가능
  • Python 패키지 perth, librosa 활용해 오디오에서 워터마크 값(0 또는 1) 추출 가능

커뮤니티

  • 공식 Discord 커뮤니티 운영 중, 누구나 합류 및 협업 가능

면책 조항

  • 본 모델은 악의적 용도 사용 금지, 프롬프트는 인터넷에서 공개된 데이터만 활용함

Read Entire Article