Chatterbox TTS

2 days ago 1

Chatterbox는 Resemble AI가 공개한 최신 오픈소스 TTS(음성 합성) 모델임
경쟁사인 ElevenLabs와 비교 평가에서 지속적으로 선호 결과를 보임
감정 과장 제어 등 독자적인 기능을 탑재해 다양한 음성 표현 가능함
5억 개 파라미터 Llama 백본과 50만 시간의 정제된 데이터로 훈련 진행함
모든 생성 음성에 Perth 워터마킹 내장으로 무단 사용 및 위변조 방지 지원함

Chatterbox TTS 소개 및 중요성

Chatterbox는 Resemble AI에서 개발한 생산 환경 등급의 오픈소스 TTS(텍스트 음성 변환) 모델임
MIT 라이선스를 적용해 자유롭게 활용 가능, 닫힌 소스 상용 모델(예: ElevenLabs)과 비교시에도 우수한 품질을 입증 받은 결과 공개함
동영상, 밈, 게임, AI 에이전트 등 콘텐츠 제작 전반에 적용 가능, 오픈소스 TTS 최초로 감정 과장 제어 기능을 제공함
Hugging Face Gradio 앱이나 자체 API로 시연 및 실사용 가능, 대규모 또는 높은 정확도 필요시 상용 API(200ms 이하 초저지연) 제공함

주요 특징

최첨단 제로샷 TTS: 별도의 데이터 없이도 다양한 화자 스타일 표현 가능
0.5B Llama 백본: 대형 언어 모델 구조를 음성 합성에 접목함
감정 과장/강도 조절: 각 화자별 개성/감정의 강도를 세밀하게 제어할 수 있는 기능 제공
Alignment-informed inference: 음소와 오디오 정렬 정보를 반영해 초고안정 생성 품질 구현
0.5M 시간 정제 데이터: 대규모/고품질 음성 데이터셋으로 학습 진행
내장 워터마킹: Resemble AI의 Perth(Perceptual Threshold) 워터마킹으로 생성물 추적·무단사용 방지
음성 변환 스크립트: 손쉽게 사용 가능한 voice conversion 기능 내장
성능 검증: ElevenLabs 대비 우수 평가 결과 확보

사용 팁

일반 TTS/음성 에이전트: 기본값(Exaggeration=0.5, cfg_weight=0.5)으로 대부분 상황에서 균형 잡힌 품질 구현
- 빠른 화자 스타일일 경우 cfg_weight 값을 0.3 부근으로 조절 시 더 자연스러운 속도 제공
감정적/극적인 음성 합성: Exaggeration을 0.7 이상으로 높이고 cfg_weight 감소 시 극적인 발화 효과 강화
- 감정 강도(exaggeration)가 높을수록 발화 속도 빨라짐, cfg_weight를 낮추면 더 천천히 또렷한 발화 조정 가능

지원 언어

현재는 영어만 지원함

참고/의존 오픈소스

Cosyvoice, Real-Time-Voice-Cloning, HiFT-GAN, Llama 3, S3Tokenizer 등 다양한 최신 음성·언어 모델 기술 반영함

Perth 워터마킹 내장

Perth(Perceptual Threshold) 워터마킹: 모든 생성 음성에 오디오 품질 저하 없는 신경망 워터마크를 삽입함
워터마크는 MP3 압축, 오디오 편집, 가공에도 유지됨
정확도 100%에 가까운 자동 탐지 가능, 원본 추적·위변조 방지 및 책임감 있는 AI 사용 지원

워터마크 추출 예시

별도 스크립트로 해당 워터마크 포함 여부 검증 가능
Python 패키지 perth, librosa 활용해 오디오에서 워터마크 값(0 또는 1) 추출 가능

커뮤니티

공식 Discord 커뮤니티 운영 중, 누구나 합류 및 협업 가능

면책 조항

본 모델은 악의적 용도 사용 금지, 프롬프트는 인터넷에서 공개된 데이터만 활용함

Read Entire Article