뉴럴 오디오 코덱: 오디오를 LLM에 넣는 방법

11 hours ago 1

뉴럴 오디오 코덱은 오디오 데이터를 대형 언어 모델(LLM) 에 효과적으로 입력하기 위한 핵심 도구임
기존의 LLM 음성 인터페이스는 주로 텍스트 기반 래퍼라서, 진정한 음성 이해 및 감정 인식에는 한계가 있음
오디오 모델링은 텍스트와 달리 샘플 수가 많고 장기적인 일관성 유지가 어려움으로써, 효율적인 압축 및 토크나이즈가 필요함
Residual Vector Quantization(RVQ) 등 최신 뉴럴 오디오 코덱 기법을 이용해 오디오를 LLM 친화적인 불연속 토큰으로 변환하여 처리함
Kyutai의 Mimi 등 첨단 뉴럴 오디오 코덱 적용으로 오디오 LLM의 표현력과 품질이 한층 개선되는 추세임

뉴럴 오디오 코덱과 오디오 LLM 도입 배경

LLM 기반 음성 모델 대부분은 실제 오디오를 이해하기보다 텍스트로 변환–응답–합성하는 방식임
진짜 음성 이해에서는 감정이나 억양, 사르카즘, 비언어적 뉘앙스의 파악이 필수적임
일부 모델(Gemini, ChatGPT Advanced Voice Mode, Qwen, Moshi)은 음성 입력이 가능하나, 실질적으로는 깊이 있는 음성 이해 능력이 부족함
텍스트 LLM은 데이터, 알고리듬, 연산 자원만 투입하면 빠르게 고성능화되었으나, 오디오 데이터는 처리 난이도가 훨씬 높음

텍스트와 오디오의 토크나이즈 접근 방식 차이

텍스트는 byte-pair encoding 등 비교적 단순한 고정 토크나이저를 사용해도 우수한 결과를 냄
초창기 LSTM이나 RNN조차 샘플–단일 문자 예측만으로도 합리적인 결과를 얻음
오디오는 1초에 수만 개 샘플, 10초만 해도 수십만 개 시계열 예측이 필요함
WaveNet처럼 샘플 별로 오디오 생성 시, 실제로 음질은 좋으나 의미전달에는 어려움이 따름

오디오 모델링의 병목과 샘플별 예측 한계

샘플별 생성은 현실적으로 생성 속도가 매우 느리고, 실제 의미 단위의 연결성도 보장하지 못함
예시 실험(151M 파라미터, 1000시간 데이터)은 잡음 섞인 음성이나 일관성 부족 현상 등으로 실용성이 떨어짐
오디오의 높은 샘플링 레이트(16kHz 기준, 2048컨텍스트=128ms)는 LLM의 맥락 처리 한계를 초래함
실시간 오디오 처리를 위해선 효과적인 압축이 필수적임

뉴럴 오디오 코덱: 오토인코더 및 RVQ

오토인코더와 벡터 양자화(VQ-VAE) 기본 원리

입력(오디오, 이미지 등)을 더 작은 잠재 공간(latent space) 으로 압축했다가 복원하는 신경망 구조임
임베딩을 벡터 양자화(예: k-means) 방식으로 불연속 토큰화하여 LLM에 입력하도록 설계함
Straight-through estimator 기법을 이용해 비미분 특성을 우회적으로 학습시킴
Commitment loss를 추가해 임베딩과 클러스터 중심간 거리를 최소화하도록 유도함
VQ-VAE 모델 구조는 오토인코더가 양자화 친화적으로 발전된 형태임

Residual Vector Quantization(RVQ) 개념

많은 양자화 레벨이 필요할 경우, 단일 클러스터 대량 관리의 한계를 해결하기 위해 잔차(Residual) 토큰 레벨을 도입함
최초 임베딩을 1차 양자화하고, 잔차분을 추가로 양자화하는 방식으로 압축 효율을 극대화함
필요시, 2단계 이상 다중 레벨 양자화가 가능하며, 구조 확장은 단순함 (for level in range(levels) 순환 구조)
RVQ는 SoundStream(2021) 등 최신 뉴럴 오디오 코덱에 핵심적으로 적용됨

오디오 토크나이즈와 LLM 적용

CNN 기반 오토인코더로 오디오를 다운샘플(예: 128배, 32차원 벡터) 후, 각 임베딩에 대해 독립적 RVQ 양자화 진행
RVQ 코드 출력(예: 8레벨 RVQ)을 그대로 순차적으로 1D 토큰 시퀀스로 펼쳐 LLM 입력으로 사용
flattening 방식 도입의 경우, 시간 압축의 일부 손실(예: 128x downsampling→8x 다시 팽창) 발생
코드북 수준, 레벨 수, FLATTEN 순서 등은 각각의 품질과 압축률에 영향

실제 뉴럴 오디오 코덱 훈련 및 품질 개선

실험 결과, RVQ 레벨이 증가할수록 복원 손실이 줄고 음질이 증진됨
단, 자체 제작 간단한 코덱만으로도 여전히 약간의 노이즈, 음색 왜곡 존재
Kyutai의 Mimi 등 최신 신경망 오디오 코덱은 GAN 기반 손실 함수, RVQ dropout 등 혁신 적용으로 품질 극대화
- GAN discriminator로 진짜/가짜 오디오 감별하며 학습
- 여러 RVQ 레벨에서 임의로 레벨 일부만 사용(드롭아웃), 어느 압축 레벨에서도 품질 유지

Mimi 코덱의 실제 LLM 성능 변화

Mimi는 24kHz 샘플레이트, 12.5fps 등 더 공격적 다운샘플 및 효율적 압축 가능
동일 Libri-Light 10k 시간 데이터를 Mimi로 토크나이즈하면, 저장 용량 약 1/2로 감소, 학습 효율 및 품질 개선
모델이 곡, 시 등 의미 기반 오디오 생성에서 더 높은 텍스트 일관성 보임

의미 토큰(Semantic Token) 개념 도입

Mimi의 최상위 레벨은 WavLM 등 음성용 BERT로부터 추출한 의미 토큰임
의미 토큰은 음성의 내용을, 하위 RVQ 토큰은 음색·목소리 등 음향 정보를 담당
의미 토큰 고정 후 나머지 토큰만 LLM이 재생성하면, 같은 말을 다른 목소리로 하는 결과가 가능함

의미–음향 품질 트레이드오프

RVQ 레벨 수를 낮출수록 의미 토큰 비중이 높아져, 의미 일치율 증대 및 LLM의 시적 문장 생성 능력 향상
실제로, 'Librivox' 안내 멘트 등 학습 데이터 일부를 그대로 암기하는 수준까지 도달함
의미 중시 vs. 음질 중시 손실 함수 가중치에 따라 다양한 활용 가능 (Moshi는 의미손실 100x 중시)

최신 오디오 LLM 모델 및 연구 동향

수년간 진행된 발전으로 Kyutai의 Moshi, Sesame의 CSM, Alibaba Qwen3-Omni 등은 음성 네이티브 LLM 연구를 선도함
대부분의 모델이 여전히 텍스트 스트림 병행 접근법에 의존, 문맥 추론 등은 주로 텍스트에서 이뤄짐
텍스트·음성 토큰을 혼합·교차 사용하거나, 연속 잠재 공간 생성(디퓨전, 컨시스턴시 모델) 등 다양한 대안 연구도 활발함

결론 및 전망

뉴럴 오디오 코덱은 오디오 LLM의 핵심 인프라로, 의미 및 음향 정보를 균형 있게 토크나이즈함으로써 음성 생성 품질을 크게 개선함
아직 텍스트 LLM 대비 reasoning·음성 이해력 측면에서 modality gap 존재
Kyutai Moshi 등은 최초 엔드투엔드 Voice AI 시도 등 다양한 혁신 이행 중이며, 앞으로도 오디오 ML 발전이 기대됨

참고 논문 및 추가 읽을 거리

WaveNet(2016), SampleRNN(2016), MelGAN(2019), HiFi-GAN(2020) 등 오디오 생성 모델 발전사 및 주요 개념 소개
Neural Discrete Representation Learning, SoundStream, EnCodec, WavLM, MiMo-Audio 등 코덱·모델 응용 연구 소개
연속적 오디오 생성 및 Diffusion/Consistency 모델 적용 가능성 제시

최신 오디오 기반 LLM(2025년 기준) 예시

Moshi (Kyutai)
CSM (Sesame)
Qwen3-Omni (Alibaba)
MiMo-Audio (Xiaomi)
LFM2-Audio (Liquid AI)

Read Entire Article