-
뉴럴 오디오 코덱은 오디오 데이터를 대형 언어 모델(LLM) 에 효과적으로 입력하기 위한 핵심 도구임
- 기존의 LLM 음성 인터페이스는 주로 텍스트 기반 래퍼라서, 진정한 음성 이해 및 감정 인식에는 한계가 있음
- 오디오 모델링은 텍스트와 달리 샘플 수가 많고 장기적인 일관성 유지가 어려움으로써, 효율적인 압축 및 토크나이즈가 필요함
-
Residual Vector Quantization(RVQ) 등 최신 뉴럴 오디오 코덱 기법을 이용해 오디오를 LLM 친화적인 불연속 토큰으로 변환하여 처리함
- Kyutai의 Mimi 등 첨단 뉴럴 오디오 코덱 적용으로 오디오 LLM의 표현력과 품질이 한층 개선되는 추세임
뉴럴 오디오 코덱과 오디오 LLM 도입 배경
- LLM 기반 음성 모델 대부분은 실제 오디오를 이해하기보다 텍스트로 변환–응답–합성하는 방식임
-
진짜 음성 이해에서는 감정이나 억양, 사르카즘, 비언어적 뉘앙스의 파악이 필수적임
- 일부 모델(Gemini, ChatGPT Advanced Voice Mode, Qwen, Moshi)은 음성 입력이 가능하나, 실질적으로는 깊이 있는 음성 이해 능력이 부족함
- 텍스트 LLM은 데이터, 알고리듬, 연산 자원만 투입하면 빠르게 고성능화되었으나, 오디오 데이터는 처리 난이도가 훨씬 높음
텍스트와 오디오의 토크나이즈 접근 방식 차이
- 텍스트는 byte-pair encoding 등 비교적 단순한 고정 토크나이저를 사용해도 우수한 결과를 냄
- 초창기 LSTM이나 RNN조차 샘플–단일 문자 예측만으로도 합리적인 결과를 얻음
- 오디오는 1초에 수만 개 샘플, 10초만 해도 수십만 개 시계열 예측이 필요함
- WaveNet처럼 샘플 별로 오디오 생성 시, 실제로 음질은 좋으나 의미전달에는 어려움이 따름
오디오 모델링의 병목과 샘플별 예측 한계
-
샘플별 생성은 현실적으로 생성 속도가 매우 느리고, 실제 의미 단위의 연결성도 보장하지 못함
- 예시 실험(151M 파라미터, 1000시간 데이터)은 잡음 섞인 음성이나 일관성 부족 현상 등으로 실용성이 떨어짐
- 오디오의 높은 샘플링 레이트(16kHz 기준, 2048컨텍스트=128ms)는 LLM의 맥락 처리 한계를 초래함
- 실시간 오디오 처리를 위해선 효과적인 압축이 필수적임
뉴럴 오디오 코덱: 오토인코더 및 RVQ
오토인코더와 벡터 양자화(VQ-VAE) 기본 원리
- 입력(오디오, 이미지 등)을 더 작은 잠재 공간(latent space) 으로 압축했다가 복원하는 신경망 구조임
- 임베딩을 벡터 양자화(예: k-means) 방식으로 불연속 토큰화하여 LLM에 입력하도록 설계함
-
Straight-through estimator 기법을 이용해 비미분 특성을 우회적으로 학습시킴
-
Commitment loss를 추가해 임베딩과 클러스터 중심간 거리를 최소화하도록 유도함
- VQ-VAE 모델 구조는 오토인코더가 양자화 친화적으로 발전된 형태임
Residual Vector Quantization(RVQ) 개념
- 많은 양자화 레벨이 필요할 경우, 단일 클러스터 대량 관리의 한계를 해결하기 위해 잔차(Residual) 토큰 레벨을 도입함
- 최초 임베딩을 1차 양자화하고, 잔차분을 추가로 양자화하는 방식으로 압축 효율을 극대화함
- 필요시, 2단계 이상 다중 레벨 양자화가 가능하며, 구조 확장은 단순함 (for level in range(levels) 순환 구조)
- RVQ는 SoundStream(2021) 등 최신 뉴럴 오디오 코덱에 핵심적으로 적용됨
오디오 토크나이즈와 LLM 적용
- CNN 기반 오토인코더로 오디오를 다운샘플(예: 128배, 32차원 벡터) 후, 각 임베딩에 대해 독립적 RVQ 양자화 진행
- RVQ 코드 출력(예: 8레벨 RVQ)을 그대로 순차적으로 1D 토큰 시퀀스로 펼쳐 LLM 입력으로 사용
- flattening 방식 도입의 경우, 시간 압축의 일부 손실(예: 128x downsampling→8x 다시 팽창) 발생
- 코드북 수준, 레벨 수, FLATTEN 순서 등은 각각의 품질과 압축률에 영향
실제 뉴럴 오디오 코덱 훈련 및 품질 개선
- 실험 결과, RVQ 레벨이 증가할수록 복원 손실이 줄고 음질이 증진됨
- 단, 자체 제작 간단한 코덱만으로도 여전히 약간의 노이즈, 음색 왜곡 존재
- Kyutai의 Mimi 등 최신 신경망 오디오 코덱은 GAN 기반 손실 함수, RVQ dropout 등 혁신 적용으로 품질 극대화
- GAN discriminator로 진짜/가짜 오디오 감별하며 학습
- 여러 RVQ 레벨에서 임의로 레벨 일부만 사용(드롭아웃), 어느 압축 레벨에서도 품질 유지
Mimi 코덱의 실제 LLM 성능 변화
- Mimi는 24kHz 샘플레이트, 12.5fps 등 더 공격적 다운샘플 및 효율적 압축 가능
- 동일 Libri-Light 10k 시간 데이터를 Mimi로 토크나이즈하면, 저장 용량 약 1/2로 감소, 학습 효율 및 품질 개선
- 모델이 곡, 시 등 의미 기반 오디오 생성에서 더 높은 텍스트 일관성 보임
의미 토큰(Semantic Token) 개념 도입
- Mimi의 최상위 레벨은 WavLM 등 음성용 BERT로부터 추출한 의미 토큰임
- 의미 토큰은 음성의 내용을, 하위 RVQ 토큰은 음색·목소리 등 음향 정보를 담당
- 의미 토큰 고정 후 나머지 토큰만 LLM이 재생성하면, 같은 말을 다른 목소리로 하는 결과가 가능함
의미–음향 품질 트레이드오프
- RVQ 레벨 수를 낮출수록 의미 토큰 비중이 높아져, 의미 일치율 증대 및 LLM의 시적 문장 생성 능력 향상
- 실제로, 'Librivox' 안내 멘트 등 학습 데이터 일부를 그대로 암기하는 수준까지 도달함
- 의미 중시 vs. 음질 중시 손실 함수 가중치에 따라 다양한 활용 가능 (Moshi는 의미손실 100x 중시)
최신 오디오 LLM 모델 및 연구 동향
- 수년간 진행된 발전으로 Kyutai의 Moshi, Sesame의 CSM, Alibaba Qwen3-Omni 등은 음성 네이티브 LLM 연구를 선도함
- 대부분의 모델이 여전히 텍스트 스트림 병행 접근법에 의존, 문맥 추론 등은 주로 텍스트에서 이뤄짐
- 텍스트·음성 토큰을 혼합·교차 사용하거나, 연속 잠재 공간 생성(디퓨전, 컨시스턴시 모델) 등 다양한 대안 연구도 활발함
결론 및 전망
- 뉴럴 오디오 코덱은 오디오 LLM의 핵심 인프라로, 의미 및 음향 정보를 균형 있게 토크나이즈함으로써 음성 생성 품질을 크게 개선함
- 아직 텍스트 LLM 대비 reasoning·음성 이해력 측면에서 modality gap 존재
- Kyutai Moshi 등은 최초 엔드투엔드 Voice AI 시도 등 다양한 혁신 이행 중이며, 앞으로도 오디오 ML 발전이 기대됨
참고 논문 및 추가 읽을 거리
- WaveNet(2016), SampleRNN(2016), MelGAN(2019), HiFi-GAN(2020) 등 오디오 생성 모델 발전사 및 주요 개념 소개
- Neural Discrete Representation Learning, SoundStream, EnCodec, WavLM, MiMo-Audio 등 코덱·모델 응용 연구 소개
- 연속적 오디오 생성 및 Diffusion/Consistency 모델 적용 가능성 제시
최신 오디오 기반 LLM(2025년 기준) 예시
- Moshi (Kyutai)
- CSM (Sesame)
- Qwen3-Omni (Alibaba)
- MiMo-Audio (Xiaomi)
- LFM2-Audio (Liquid AI)