메타의 1,600개 언어용 Omnilingual MT

1 month ago 29

Meta AI가 개발한 Omnilingual Machine Translation(OMT) 은 1,600개 이상의 언어를 지원하는 최초의 기계번역 시스템으로, 기존 NLLB 프로젝트의 200개 언어 한계를 넘어섬
공개 코퍼스·역번역·데이터 마이닝을 결합해 저자원 및 소수 언어까지 포괄하는 대규모 다국어 데이터셋을 구축
BLASER 3·OmniTOX·BOUQuET·Met-BOUQuET 등 다양한 품질·유해성 평가 도구를 통합해 신뢰도 높은 번역 성능을 측정
LLaMA3 기반 decoder-only 모델과 encoder–decoder 구조의 OMT-NLLB를 병행해, 저연산 환경에서도 고품질 번역을 구현
1,600개 언어 전반의 일관된 문장 생성과 교차언어 전이 향상을 달성하며, 글로벌 언어 포용성 확대의 중요한 진전으로 평가됨

Omnilingual MT 개요

Omnilingual Machine Translation (OMT) 는 1,600개 이상의 언어를 지원하는 최초의 기계번역 시스템으로 Meta AI가 개발
기존 No Language Left Behind (NLLB) 프로젝트가 200개 언어까지 확장했던 성과를 기반으로, 훨씬 더 많은 언어를 포괄
기존 대형언어모델(LLM) 기반 번역은 품질은 높았지만 언어 범위가 제한적이었으며, 특히 저자원·소수 언어의 생성 능력 부족이 문제로 지적됨
OMT는 이러한 한계를 극복하기 위해 데이터 전략, 모델 구조, 평가 체계를 전면적으로 확장

데이터 전략과 언어 커버리지 확장

OMT는 공개 다국어 코퍼스와 신규 생성 데이터셋을 통합해 언어 범위를 대폭 확장
- MeDLEY bitext(수동 정제 병렬 데이터), 역번역(synthetic backtranslation), 데이터 마이닝(mining) 기법을 결합
- 이를 통해 소수 언어(long-tail languages) 와 다양한 도메인 및 문체(register) 까지 포괄
이러한 데이터 전략은 기존 시스템이 다루지 못했던 7,000여 개 언어 중 상당수의 표현 가능성을 확보하는 기반이 됨

평가 체계와 품질 측정

신뢰성과 확장성을 위해 표준 지표와 함께 여러 평가 도구를 결합
- BLASER 3**: 참조 문장 없이 품질을 추정하는**reference-free 평가 모델
  - OmniTOX: 번역 결과의 유해성(toxicity) 을 판별하는 분류기
  - BOUQuET: 다양한 언어군을 포함한 대규모 다국어 평가 데이터셋, 수작업으로 구축
  - Met-BOUQuET: 대규모 다국어 품질 추정을 위한 확장형 데이터셋
  - 이들 데이터셋은 지속적으로 업데이트되는 공개 리더보드와 함께 제공되어 연구자들이 자유롭게 활용 가능

모델 구조와 학습 접근법

OMT는 두 가지 방식으로 LLM을 번역에 특화
- OMT-LLaMA
  - LLaMA3 기반의 decoder-only 모델
  - 다국어 지속 사전학습(multilingual continual pretraining) 과 검색 기반 번역(retrieval-augmented translation) 을 통해 추론 시 적응성 강화
- OMT-NLLB
  - encoder–decoder 구조로, OmniSONAR라는 다국어 정렬 공간 위에 구축
  - 비병렬 데이터(non-parallel data) 를 활용할 수 있는 학습 방법을 도입
  - decoder-only 사전학습 데이터를 encoder–decoder 학습에 통합 가능
  - 1B~8B 파라미터 모델이 70B LLM 기준 모델과 동등하거나 우수한 번역 성능을 달성해, 저연산 환경에서도 고품질 번역 가능성을 입증

성능 및 언어 생성 능력

영어→1,600개 언어 번역 평가에서 기존 모델은 저자원 언어를 이해는 하지만 의미 있는 문장 생성에는 실패하는 경우가 많았음
OMT-LLaMA 모델은 이러한 언어들에 대해 일관된 문장 생성(coherent generation) 을 크게 확장
교차언어 전이(cross-lingual transfer) 성능도 향상되어, 1,600개 언어에 대한 이해(understanding) 측면의 문제를 거의 해결
미세조정(finetuning) 과 검색증강생성(RAG) 을 통해 특정 언어나 도메인에서 추가 품질 향상 가능

공개 리소스와 연구 확장

BOUQuET 및 Met-BOUQuET 데이터셋은 무료 공개되어 있으며, Omnilinguality를 향해 지속적으로 확장 중
연구팀은 저자원 언어 접근성 향상과 다국어 AI 연구의 기반 확립을 목표로 함
OMT는 대규모 언어 다양성을 포괄하는 최초의 실질적 번역 시스템으로, 글로벌 언어 포용성을 위한 중요한 진전으로 평가됨

Read Entire Article