-
Chatterbox는 Resemble AI가 공개한 최신 오픈소스 TTS(음성 합성) 모델임
- 경쟁사인 ElevenLabs와 비교 평가에서 지속적으로 선호 결과를 보임
-
감정 과장 제어 등 독자적인 기능을 탑재해 다양한 음성 표현 가능함
- 5억 개 파라미터 Llama 백본과 50만 시간의 정제된 데이터로 훈련 진행함
- 모든 생성 음성에 Perth 워터마킹 내장으로 무단 사용 및 위변조 방지 지원함
Chatterbox TTS 소개 및 중요성
-
Chatterbox는 Resemble AI에서 개발한 생산 환경 등급의 오픈소스 TTS(텍스트 음성 변환) 모델임
- MIT 라이선스를 적용해 자유롭게 활용 가능, 닫힌 소스 상용 모델(예: ElevenLabs)과 비교시에도 우수한 품질을 입증 받은 결과 공개함
- 동영상, 밈, 게임, AI 에이전트 등 콘텐츠 제작 전반에 적용 가능, 오픈소스 TTS 최초로 감정 과장 제어 기능을 제공함
- Hugging Face Gradio 앱이나 자체 API로 시연 및 실사용 가능, 대규모 또는 높은 정확도 필요시 상용 API(200ms 이하 초저지연) 제공함
주요 특징
-
최첨단 제로샷 TTS: 별도의 데이터 없이도 다양한 화자 스타일 표현 가능
-
0.5B Llama 백본: 대형 언어 모델 구조를 음성 합성에 접목함
-
감정 과장/강도 조절: 각 화자별 개성/감정의 강도를 세밀하게 제어할 수 있는 기능 제공
-
Alignment-informed inference: 음소와 오디오 정렬 정보를 반영해 초고안정 생성 품질 구현
-
0.5M 시간 정제 데이터: 대규모/고품질 음성 데이터셋으로 학습 진행
-
내장 워터마킹: Resemble AI의 Perth(Perceptual Threshold) 워터마킹으로 생성물 추적·무단사용 방지
-
음성 변환 스크립트: 손쉽게 사용 가능한 voice conversion 기능 내장
-
성능 검증: ElevenLabs 대비 우수 평가 결과 확보
사용 팁
-
일반 TTS/음성 에이전트: 기본값(Exaggeration=0.5, cfg_weight=0.5)으로 대부분 상황에서 균형 잡힌 품질 구현
- 빠른 화자 스타일일 경우 cfg_weight 값을 0.3 부근으로 조절 시 더 자연스러운 속도 제공
-
감정적/극적인 음성 합성: Exaggeration을 0.7 이상으로 높이고 cfg_weight 감소 시 극적인 발화 효과 강화
- 감정 강도(exaggeration)가 높을수록 발화 속도 빨라짐, cfg_weight를 낮추면 더 천천히 또렷한 발화 조정 가능
지원 언어
참고/의존 오픈소스
- Cosyvoice, Real-Time-Voice-Cloning, HiFT-GAN, Llama 3, S3Tokenizer 등 다양한 최신 음성·언어 모델 기술 반영함
Perth 워터마킹 내장
-
Perth(Perceptual Threshold) 워터마킹: 모든 생성 음성에 오디오 품질 저하 없는 신경망 워터마크를 삽입함
- 워터마크는 MP3 압축, 오디오 편집, 가공에도 유지됨
- 정확도 100%에 가까운 자동 탐지 가능, 원본 추적·위변조 방지 및 책임감 있는 AI 사용 지원
워터마크 추출 예시
- 별도 스크립트로 해당 워터마크 포함 여부 검증 가능
- Python 패키지 perth, librosa 활용해 오디오에서 워터마크 값(0 또는 1) 추출 가능
커뮤니티
- 공식 Discord 커뮤니티 운영 중, 누구나 합류 및 협업 가능
면책 조항
- 본 모델은 악의적 용도 사용 금지, 프롬프트는 인터넷에서 공개된 데이터만 활용함