'조물조물 무치다'…AI는 '믹스'로 번역 한계

1 month ago 22

‘조물조물 무친다’ ‘은근히 졸인다’처럼 한국어에는 동작의 방식과 강도, 상황을 함께 담은 표현이 많다. 국립국어원 표준국어대사전에 등재된 의성어와 의태어만 5000개가 넘는다. 수백 개 수준에 그치는 영어와 비교하면 한국어는 같은 행동이라도 표현이 훨씬 촘촘하게 나뉘어 있다.

이런 미묘한 표현을 인공지능(AI)은 제대로 이해하지 못한다. ‘조물조물 무치다’를 번역기에 넣으면 ‘mix’, ‘은근히’는 ‘slowly’로 단순화된다. 동작의 강도와 리듬, 맥락이 사라지고 핵심 의미만 남는다.

AI 모델의 텍스트 학습 방식 때문이다. 생성형 AI는 문장을 잘게 쪼갠 뒤 이를 숫자로 바꿔 처리하는 ‘임베딩’ 방식을 쓴다. 단어의 의미를 수천 개 숫자로 표현하고, 이 숫자 사이의 거리로 의미의 유사성을 판단하는 구조다. 이 과정은 ‘많이 본 데이터’를 기준으로 처리된다.

챗GPT와 제미나이 등 글로벌 AI 모델은 단어 하나를 수천 개 숫자로 표현할 만큼 정교하지만 표현력은 학습 데이터로 제한된다. 영어처럼 데이터가 풍부한 언어는 미묘한 차이까지 구분하지만 한국어처럼 데이터가 적은 언어는 의미가 단순화되기 쉽다. ‘조물조물’과 ‘대충’ 같은 차이가 벡터 공간에서 제대로 구분되지 않는다. 국내 한 AI 회사 관계자는 “한국어와 한글은 세계 온라인 인구 중 쓰는 사람이 5000만 명에 불과하다”며 “영어 중국어 등과 비교하면 매우 적은 데이터를 쌓을 수밖에 없다는 구조적 문제가 있다”고 했다.

구조적 문제의 해결을 장면(멀티모달)에서 찾고 있다. 예컨대 ‘조물조물 무친다’를 단어가 아니라 손의 움직임, 재료의 변화, 조리 상황과 함께 학습하면 ‘어떻게 하는 행동인지’까지 파악할 수 있다.

인구 280만 명인 리투아니아는 정부와 연구기관이 협력해 자국어(리투아니아어) 텍스트와 음성 데이터를 구축하고 조만간 이를 공개할 예정이다. 자국 언어와 데이터를 스스로 통제하려는 ‘소버린(주권) AI’의 중요성을 인식한 결과다. 시장조사업체 가트너는 2027년까지 전 세계 국가의 약 35%가 자국 언어 기반 AI 체계를 도입할 것으로 전망하고 있다.

유지희/안정훈 기자 keephee@hankyung.com

Read Entire Article