-
Meta AI가 개발한 Omnilingual Machine Translation(OMT) 은 1,600개 이상의 언어를 지원하는 최초의 기계번역 시스템으로, 기존 NLLB 프로젝트의 200개 언어 한계를 넘어섬
-
공개 코퍼스·역번역·데이터 마이닝을 결합해 저자원 및 소수 언어까지 포괄하는 대규모 다국어 데이터셋을 구축
-
BLASER 3·OmniTOX·BOUQuET·Met-BOUQuET 등 다양한 품질·유해성 평가 도구를 통합해 신뢰도 높은 번역 성능을 측정
-
LLaMA3 기반 decoder-only 모델과 encoder–decoder 구조의 OMT-NLLB를 병행해, 저연산 환경에서도 고품질 번역을 구현
-
1,600개 언어 전반의 일관된 문장 생성과 교차언어 전이 향상을 달성하며, 글로벌 언어 포용성 확대의 중요한 진전으로 평가됨
Omnilingual MT 개요
-
Omnilingual Machine Translation (OMT) 는 1,600개 이상의 언어를 지원하는 최초의 기계번역 시스템으로 Meta AI가 개발
- 기존 No Language Left Behind (NLLB) 프로젝트가 200개 언어까지 확장했던 성과를 기반으로, 훨씬 더 많은 언어를 포괄
- 기존 대형언어모델(LLM) 기반 번역은 품질은 높았지만 언어 범위가 제한적이었으며, 특히 저자원·소수 언어의 생성 능력 부족이 문제로 지적됨
- OMT는 이러한 한계를 극복하기 위해 데이터 전략, 모델 구조, 평가 체계를 전면적으로 확장
데이터 전략과 언어 커버리지 확장
- OMT는 공개 다국어 코퍼스와 신규 생성 데이터셋을 통합해 언어 범위를 대폭 확장
-
MeDLEY bitext(수동 정제 병렬 데이터), 역번역(synthetic backtranslation), 데이터 마이닝(mining) 기법을 결합
- 이를 통해 소수 언어(long-tail languages) 와 다양한 도메인 및 문체(register) 까지 포괄
- 이러한 데이터 전략은 기존 시스템이 다루지 못했던 7,000여 개 언어 중 상당수의 표현 가능성을 확보하는 기반이 됨
평가 체계와 품질 측정
- 신뢰성과 확장성을 위해 표준 지표와 함께 여러 평가 도구를 결합
-
BLASER 3**: 참조 문장 없이 품질을 추정하는**reference-free 평가 모델
-
OmniTOX: 번역 결과의 유해성(toxicity) 을 판별하는 분류기
-
BOUQuET: 다양한 언어군을 포함한 대규모 다국어 평가 데이터셋, 수작업으로 구축
-
Met-BOUQuET: 대규모 다국어 품질 추정을 위한 확장형 데이터셋
- 이들 데이터셋은 지속적으로 업데이트되는 공개 리더보드와 함께 제공되어 연구자들이 자유롭게 활용 가능
모델 구조와 학습 접근법
- OMT는 두 가지 방식으로 LLM을 번역에 특화
-
OMT-LLaMA
-
LLaMA3 기반의 decoder-only 모델
-
다국어 지속 사전학습(multilingual continual pretraining) 과 검색 기반 번역(retrieval-augmented translation) 을 통해 추론 시 적응성 강화
-
OMT-NLLB
-
encoder–decoder 구조로, OmniSONAR라는 다국어 정렬 공간 위에 구축
-
비병렬 데이터(non-parallel data) 를 활용할 수 있는 학습 방법을 도입
- decoder-only 사전학습 데이터를 encoder–decoder 학습에 통합 가능
-
1B~8B 파라미터 모델이 70B LLM 기준 모델과 동등하거나 우수한 번역 성능을 달성해, 저연산 환경에서도 고품질 번역 가능성을 입증
성능 및 언어 생성 능력
-
영어→1,600개 언어 번역 평가에서 기존 모델은 저자원 언어를 이해는 하지만 의미 있는 문장 생성에는 실패하는 경우가 많았음
-
OMT-LLaMA 모델은 이러한 언어들에 대해 일관된 문장 생성(coherent generation) 을 크게 확장
-
교차언어 전이(cross-lingual transfer) 성능도 향상되어, 1,600개 언어에 대한 이해(understanding) 측면의 문제를 거의 해결
-
미세조정(finetuning) 과 검색증강생성(RAG) 을 통해 특정 언어나 도메인에서 추가 품질 향상 가능
공개 리소스와 연구 확장
-
BOUQuET 및 Met-BOUQuET 데이터셋은 무료 공개되어 있으며, Omnilinguality를 향해 지속적으로 확장 중
- 연구팀은 저자원 언어 접근성 향상과 다국어 AI 연구의 기반 확립을 목표로 함
- OMT는 대규모 언어 다양성을 포괄하는 최초의 실질적 번역 시스템으로, 글로벌 언어 포용성을 위한 중요한 진전으로 평가됨