
멀티모달은 여러 개를 뜻하는 '멀티(Multi)'와 양식·양상을 뜻하는 '모달(modality)'의 합성어다. 시각·청각·촉각·미각 등 여러 정보를 통해 결론을 파악한다는 의미다.
기존의 인공지능(AI)이 텍스트 데이터를 기반으로 정보를 학습하고 처리했다면, 멀티모달 AI는 텍스트뿐 아니라 이미지·음성·영상·제스처 등 여러 정보를 학습할 수 있다. 사람처럼 정보를 해석하고 이해할 수 있다.
멀티모달 AI는 인간 수준의 인지능력 구현, 자연스러운 인간-기계 상호작용, 복합 문제 해결력 향상, 새로운 응용 분야 개척 등 미래 AI 기술의 핵심 축으로 부상했다.
글로벌 시장분석업체 마켓앤마켓은 멀티모달 AI 시장이 2023년 10억 달러(1조 4427억 원)에서 매년 35% 증가해 2028년 45억 달러(6조 4921억원)까지 성장할 것으로 전망했다.
세계적으로 생성형 AI 서비스 경쟁이 텍스트·이미지·코드 등 유니모달(단일모달)에서 거대 멀티모달 모델(LMM)로 빠르게 격화하고 있다. 오픈AI와 구글 등 글로벌 AI 기업은 '챗GPT'와 '제미나이' 등에 멀티모달 기능을 강화하는 데 집중하고 있다. 아마존도 멀티모달 모델 '노바'를 공개했으며 중국 바이두는 지난 16일(현지시간) 자사 최초의 멀티모달 추론 모델인 '어니 X1'을 발표했다.
네이버(옴니서치), 카카오(카나나-o 예정), LG(엑사원) 등 국내 주요 빅테크 기업들도 자사 플랫폼 및 서비스에 멀티모달 AI를 적용하고 해외 파트너사와의 협력을 확대하고 있다.
권혜미 기자 hyeming@etnews.com