- 인간의 음성은 톤, 피치, 리듬, 감정 등 다양한 변화를 통해 깊은 의미를 전달하는 가장 친밀한 매체임
- 현재의 디지털 음성 비서는 이러한 감정적 요소가 부족하여 사용자와의 효과적인 협업에 한계가 있음
-
감정이 결여된 음성은 초기에는 신기할 수 있지만, 시간이 지남에 따라 실망스럽고 피로감을 줄 수 있음
-
Sesame의 목표는 대화형 파트너가 단순히 요청을 처리하는 것을 넘어, 신뢰와 자신감을 쌓는 진정한 대화를 나누는 것임
- 이를 통해 음성이 지닌 잠재력을 최대한 활용하여 지시와 이해의 궁극적인 인터페이스로 만들고자 함
핵심 요소
-
감정 지능: 감정적 맥락을 읽고 대응하는 능력
-
대화 역학: 자연스러운 타이밍, 일시정지, 끼어들기, 강조 등을 포함한 대화 흐름
-
상황 인식: 상황에 맞게 톤과 스타일을 조정하는 능력
-
일관된 성격: 일관되고 신뢰할 수 있으며 적절한 존재감을 유지하는 것
우리는 아직 거기에 도달하지 못했음
-
디지털 동반자에게 음성 존재감을 부여하는 것은 어려운 과제이지만, 우리는 성격, 기억, 표현력, 적절성 등 여러 측면에서 꾸준히 발전하고 있음
- 아래 데모는 통해 친근함과 표현력을 최적화한 대화형 음성 생성 작업의 일부를 보여주는 것
대화형 음성 생성 하기
- 진정으로 상호작용하는 AI 동반자를 만들기 위해서는 고품질 오디오 생성뿐만 아니라 실시간으로 맥락을 이해하고 적응해야 함
- 전통적인 텍스트-음성 변환(TTS) 모델은 텍스트에서 직접 음성을 생성하지만 자연스러운 대화에 필요한 맥락 인식이 부족함
- 최근 모델은 인간과 유사한 음성을 생성하지만, 동일한 문장을 다양한 방식으로 표현할 수 있는 'one-to-many' 문제를 겪고 있음
- 추가적인 맥락(톤, 리듬, 대화의 역사 등)이 없으면 모델은 최적의 선택을 할 정보가 부족함
- 이러한 미묘한 차이를 포착하려면 언어와 운율의 여러 측면에 대한 추론이 필요함
대화형 음성 모델(Conversational Speech Model, CSM)
- 이 문제를 해결하기 위해 트랜스포머를 사용한 엔드투엔드 멀티모달 학습 과제로 문제를 정의하는 대화형 음성 모델(CSM)을 도입함
- 대화의 역사를 활용하여 보다 자연스럽고 일관된 음성을 생성함
- CSM은 단일 단계 모델로 작동하여 효율성과 표현력을 향상시킴
- 맥락적 기능에 대한 진행 상황을 평가하기 위한 평가 스위트를 갖추고 있으며, 이는 일반적인 공개 평가가 포화 상태임을 고려함
배경
- 오디오를 트랜스포머로 모델링하는 한 가지 접근법은 연속적인 파형을 토크나이저를 사용하여 이산적인 오디오 토큰 시퀀스로 변환하는 것임
- 대부분의 현대적인 접근법은 두 가지 유형의 오디오 토큰에 의존함:
- 의미 토큰: 의미적 및 음성적 특징의 압축된 스피커 불변 표현으로, 고충실도 표현을 희생하면서 주요 음성 특성을 포착함
- 음향 토큰: 고충실도 오디오 재구성을 가능하게 하는 세밀한 음향 세부 사항의 인코딩으로, Residual Vector Quantization(RVQ)를 사용하여 생성됨. 의미 토큰과 달리 스피커의 고유한 정체성과 음색과 같은 자연스러운 음성 특성을 유지함
실험
- 데이터셋: 공개적으로 이용 가능한 약 백만 시간의 주로 영어 오디오 데이터셋을 사용함
- 모델 크기: 백본과 디코더 크기로 구분된 세 가지 모델 크기를 훈련함:
- Tiny: 10억 개의 백본, 1억 개의 디코더
- Small: 30억 개의 백본, 2억 5천만 개의 디코더
- Medium: 80억 개의 백본, 3억 개의 디코더
- 각 모델은 2048 시퀀스 길이(~2분의 오디오)로 5회 에포크 동안 훈련됨
평가
- 모델 성능을 텍스트 충실도, 맥락 활용, 운율, 지연 시간의 네 가지 주요 측면에서 평가함
- 객관적 벤치마크에는 단어 오류율(WER)과 동음이의어 해소와 같은 새로운 테스트가 포함됨
- 주관적 평가는 Expresso 데이터셋을 사용한 비교 평균 의견 점수(CMOS) 인간 연구에 의존함
한계 및 향후 작업
- CSM은 현재 주로 영어 데이터로 훈련되었으며, 데이터셋 오염으로 인해 일부 다국어 능력이 나타나지만 아직 성능이 좋지 않음
- 사전 훈련된 언어 모델의 가중치에 존재하는 정보를 활용하지 않음