- 1억 개의 파라미터로 구성된 Pocket TTS는 음성 복제 기능을 갖춘 경량 텍스트-음성 변환 모델로, 일반 노트북 CPU에서도 실시간 실행 가능
- 기존의 대형 LLM 기반 TTS(10억 개 이상 파라미터) 와 소형 Kokoro TTS(8,200만 파라미터) 사이의 성능 격차를 줄이며, 고품질과 효율성을 동시에 달성
- 약 5초 분량의 음성 샘플만으로 화자의 음색, 감정, 억양, 음향 조건 등을 정확히 복제
-
Continuous Audio Language Model 기반 구조를 사용해 이산 토큰 대신 연속 잠재 벡터를 직접 예측, 품질 저하 없이 모델 크기를 축소
-
MIT 라이선스 오픈소스로 공개되어, CPU 환경에서도 고품질 음성 합성을 실현하는 경량 TTS 기술의 새로운 기준 제시
Pocket TTS 개요
- Pocket TTS는 1억 개 파라미터의 텍스트-음성 변환 모델로, 음성 복제(voice cloning) 기능을 지원
- 노트북 CPU에서도 실시간으로 실행 가능
- 명령어 uvx pocket-tts serve 또는 uvx pocket-tts generate로 로컬 실행 가능
-
Kyutai가 개발했으며, MIT 라이선스로 오픈소스 공개
- 학습 데이터는 공개 영어 음성 데이터셋만 사용
- 추가적인 비공개 데이터로의 확장 가능성 언급
기존 TTS 모델과의 비교
- 현재 TTS 기술은 두 가지로 나뉨
-
대형 LLM 기반 모델: 예) Kyutai TTS 1.6B (약 16억 파라미터)
- 다양한 음성, 감정, 음향 조건을 모델링 가능하지만 GPU 필요
-
소형 특화 모델: 예) Kokoro TTS (8,200만 파라미터)
-
고정된 음성 세트와 수작업 파이프라인을 사용해 효율적이지만 유연성 제한
- Pocket TTS는 이 두 접근법의 중간 지점을 차지하며, CPU에서도 고품질 음성 합성 가능
성능 평가
-
Librispeech test-clean 세트로 평가 수행
- 오디오 입력은 Adobe Enhance Speech로 정제해 24kHz 품질 확보
- 비교 대상: F5-TTS, DSM, Chatterbox Turbo, Kokoro TTS
- 평가 지표:
-
Word Error Rate (WER)
-
오디오 품질(ELO)
-
화자 유사도(ELO)
- 결과 요약:
- Pocket TTS는 WER 1.84로 가장 낮은 오류율
-
오디오 품질은 F5-TTS 및 DSM보다 우수
-
화자 유사도는 기준 음성과 동등 수준
-
CPU에서 실시간보다 빠르게 실행 가능한 유일한 모델
모델
파라미터 수
WER ↓
오디오 품질(ELO) ↑
화자 유사도(ELO) ↑
CPU 실시간 실행
| F5-TTS |
336M |
2.21 |
1949 ± 27 |
1946 ± 26 |
✗ |
| Kyutai TTS 1.6B |
750M |
1.84 |
1959 ± 25 |
2037 ± 21 |
✗ |
| Chatterbox Turbo |
350M |
3.24 |
2055 ± 23 |
2012 ± 22 |
✗ |
| Kokoro |
82M |
1.93 |
음성 복제 없음 |
음성 복제 없음 |
✓ |
| Pocket TTS |
100M |
1.84 |
2016 ± 25 |
1898 ± 26 |
✓ |
-
Intel Core Ultra 7 165H 및 Apple M3 CPU에서 테스트 시, Pocket TTS와 Kokoro만 실시간 합성 가능
아키텍처
- Pocket TTS는 Continuous Audio Language Model 연구를 기반으로 설계
- 기존 방식은 이산 오디오 토큰을 예측했으나, Pocket TTS는 연속 잠재 벡터(latent) 를 직접 예측
- 이를 통해 RQ-transformer 병목 제거 및 모델 경량화 달성
Neural Audio Codec
-
Mimi 코덱 기반으로 설계
- Mimi는 이산 토큰으로 압축하지만, Pocket TTS는 연속 잠재 표현 사용
-
정규분포로 정규화된 VAE 학습 적용
-
WavLM을 코사인 유사도 손실로 내재 표현에 증류(distillation)
- RVQ 단계를 제거하고 전체 잠재 표현에 증류 손실 적용
Generative Model
-
Masked Autoregressive(MAR) 프레임워크 기반
-
Causal Transformer 백본과 MLP 샘플러로 구성
-
Lagrangian Self-Distillation(LSD) 손실을 사용해 1-step 샘플링 구현
- 추론 시, 예측된 잠재 벡터를 자동회귀적으로 피드백
음성 및 텍스트 조건화
- 모델 입력은 음성 프롬프트(몇 초) 와 텍스트를 결합
- 음성은 코덱 인코더로, 텍스트는 SentencePiece 토크나이저로 임베딩
모델 크기 구성
-
생성 모델(Transformer + MLP) : 9천만 파라미터
-
코덱 디코더: 1천만 파라미터
-
코덱 인코더: 1,800만 파라미터 (음성 샘플 인코딩 시 1회만 사용)
학습 데이터
- 전부 공개 영어 음성 데이터셋으로 구성, 총 88,000시간
- AMI, EARNINGS22, GIGASpeech, SPGISpeech, TED-LIUM, VoxPopuli, LibriHeavy, Emilia
주요 기술 기여
Head Batch Multiplier
- Transformer의 연산 병목을 완화하기 위해 z 벡터를 여러 번 재사용
- 각 입력 시퀀스에 대해 z를 한 번 계산 후 8회 손실 계산에 재활용
-
효율성 향상 및 학습 안정화 효과
Gaussian Temperature Sampling
- 연속 공간에서도 샘플링 온도 조절을 적용
-
가우시안 노이즈 분산 축소로 품질 향상
-
온도 0.7에서 좋은 결과 확인
Latent Classifier-Free Guidance (Latent CFG)
- 기존 CFG를 잠재 변수(z) 수준에서 적용
- 조건부/비조건부 출력을 선형 결합해 품질 향상
-
α=1.5 사용
-
SoundReactor 연구에서도 유사 개념 등장
Distillation
-
CFG 모델을 교사 모델로 사용해 경량 학생 모델로 증류
- 교사 모델의 MLP 헤드를 고정하고, 학생 모델이 L2 손실로 z를 학습
-
24층 교사 모델 → 6층 학생 모델로 축소 가능
결론
- Pocket TTS는 CPU에서도 실시간 고품질 음성 합성이 가능한 경량 TTS 모델
-
연속 잠재 공간 기반 구조, 효율적 학습 기법, 음성 복제 기능을 결합
-
오픈소스 MIT 라이선스로 공개되어, 개발자와 연구자에게 재현성과 확장성을 제공