이미지·텍스트 함께 이해…금융·쇼핑·제조 등 다양한 분야 활용
[아이뉴스24 박정민 기자] 엔씨소프트의 인공지능(AI) 기업 'NC AI'는 16일 한국어 기반 멀티모달 AI 'VARCO-VISION 2.0'의 모델 4종(△14B △1.7B △1.7B OCR △임베딩)을 오픈소스로 공개한다고 밝혔다. 14B와 비디오임베딩은 이날, 1.7B와 OCR 모델은 내주 공개한다.
![[사진=NC AI]](https://image.inews24.com/v1/f3731b90c23ded.jpg)
'멀티모달 AI'는 텍스트·이미지·음성·영상 등 다양한 형태의 데이터를 통합적으로 처리하고 이해하는 인공지능 기술이다.
VARCO-VISION 2.0은 이미지와 텍스트를 함께 이해해 질문에 답할 수 있는 차세대 비전언어모델(VLM)로, 여러 장의 이미지를 동시에 분석할 수 있어 복잡한 문서나 표, 차트를 효과적으로 처리할 수 있다.
'VARCO-VISION 2.0 14B'는 기존 글로벌 오픈소스 VLM 최고 성능으로 알려진 InternVL3-14B와 알리바바의 Ovis2-16B, Qwen2.5-VL 7B를 능가하는 성과를 달성했다. 영문·한국어 이미지 이해, OCR 벤치마크 등에서 동급 모델을 능가했다. 아울러 멀티모달 AI에서 '소버린 AI'의 가능성도 확인했다.
NC AI는 또한 개인·산업의 활용도를 높이기 위해 경량 모델인 'VARCO-VISION 2.0 1.7B'를 제공한다. 스마트폰이나 PC 등 개인 기기에서도 원활하게 동작할 수 있도록 설계됐다. 클라우드 환경뿐만 아니라 개인 디바이스에서도 고성능 멀티모달 AI를 활용할 수 있어 AI 기술의 접근·확장성을 크게 높였다.
![[사진=NC AI]](https://image.inews24.com/v1/0007fb688b72b5.jpg)
광학 문자 인식(OCR) 작업에 특화된 'VARCO-VISION-1.7B-OCR'은 기존 OCR 모델들과 달리 이미지와 언어 정보를 동시에 학습한 VLM 기반 접근 방식을 채택했다. 입력 이미지를 다수의 조각으로 나눠 고해상도 정보를 생성해 이미지를 효율적으로 처리한다. 노이즈나 흐림 등이 있는 이미지에서도 정밀하게 글자를 인식해 정확도가 높다.
마지막으로 멀티모달 임베딩 모델 'VARCO-VISION-Embedding'은 텍스트, 이미지, 비디오 간의 의미적 유사도를 고차원 임베딩 공간에서 정밀하게 계산한다. 사용자의 자연어 질의에 따라 동영상 콘텐츠를 고차원 임베딩으로 변환해 이미지·비디오 검색에 도움을 준다. 기존 검색 AI의 능력을 영상 검색 AI에 더해주는 방식을 적용해 추가학습 없이도 검색 성능을 강화했다.
이번에 공개된 4종의 모델은 금융·교육·문화·쇼핑·제조 등 다양한 분야에서 활용이 가능하다. 아울러 이미지 기반 설명 생성, 비디오 콘텐츠의 자연어 기반 검색, 크리에이티브 콘텐츠·광고 문구 작성 등 콘텐츠와 미디어 분야에서도 업무효율을 높일 것으로 기대된다.
이연수 NC AI 대표는 "AI 기술 고도화로 텍스트만 처리하는 언어모델을 넘어 비전 모델을 함께 활용하는 비전언어모델로 글로벌 트렌드가 전환되고 있다"며 "이번 4종 모델 공개를 통해 NC AI가 비전언어모델에서도 한국의 주권을 지킬 수 있는 가능성을 확인했다"고 밝혔다.
/박정민 기자(pjm8318@inews24.com)포토뉴스
