금융·공공 중심 '다큐먼트 AI' 활용 본격화…로민·업스테이지 두각

7 hours ago 1

광학문자인증(OCR) 기술 기반 다큐먼트 인공지능(AI) 시장이 열리고 있다. 문서 수요와 활용도가 높은 금융·공공부문에서 AI OCR 기술로 데이터셋을 구축하고 기업·기관 내 AI와 데이터 활용을 확대하고 있다.

20일 업계에 따르면 다큐먼트 AI 시장에서 로민과 업스테이지가 두각을 나타내고 있다. 양사는 AI OCR 기술을 활용, 한국어는 물론 과거 글씨체, 영어 등 외국어, 다양한 문서 서식이나 그림·표까지 분석해 정교한 디지털화 작업을 수행한다. 기업의 로(raw)데이터를 가용 데이터로 고도화하는 데 일조하는 것이다.

로민 다큐먼트 AI '텍스트스코프 리더'의 인쇄체·필기체·타자체 인식 예시. 로민 제공로민 다큐먼트 AI '텍스트스코프 리더'의 인쇄체·필기체·타자체 인식 예시. 로민 제공

로민은 자체 개발한 AI 딥러닝 모델 기반 대량의 문서 데이터를 사전 학습해 높은 인식률과 처리 성능을 확보한 OCR 엔진 '텍스트스코프 리더'를 제공한다. 노이즈가 많은 저품질 문서에서 높은 정확도를 나타내고 인쇄체·필기체·타자체를 모두 인식하는 게 강점이다.

실제 국가기록원의 '한글 타자기록 문자인식 기술 개발'로 타자체 문자인식 기술을 개발하고 98% 이상 인식률을 달성했다. 공문서 영문타자체 인식 기술로 진실·화해를위한과거사정리위원회의 과거 공문서를 디지털화했으며, 특수문자 속성도 인식하는 기술로 특허청의 화학 실험 데이터를 분석하고 있다.

업스테이지는 '다큐먼트 파스'로 사람이 문서를 구조적으로 이해하는 것과 동일하게 문서 내용을 디지털화, 다양한 형태의 문서 자산으로 변환을 지원한다. 11가지 형태 문서를 디지털화해 HTML, 텍스트 등 양식으로 21개 메타데이터를 포함한 결과값을 제공한다.

삼성생명에 AI OCR 기술을 적용, 다양한 보험금 청구 서류를 47종 카테고리로 분류하고 진료비·약제비 영수증 등 문서 7종 데이터를 자동 추출·입력할 수 있는 체계를 마련한 게 대표 사례다. 한 e커머스 기업의 상품 특성 검색과 트렌드 분석을 고도화하고 글로벌 사업을 위한 번역 등도 지원했다.

업스테이지 다큐먼트 AI '다큐먼트 파서' 문서 변환 결과값 예시. 업스테이지 제공업스테이지 다큐먼트 AI '다큐먼트 파서' 문서 변환 결과값 예시. 업스테이지 제공

양사의 다큐먼트 AI 사업 수주 경쟁은 치열하다. 금융과 공공은 물론, 문서의 디지털화 수요가 큰 산업군에서 계속 맞붙는 것으로 알려졌다.

업스테이지는 삼성생명과 한화생명을 비롯해 은행·증권·보험 등 금융사와 제조·유통 분야 다양한 기업 고객사를 확보했다. 로민은 KB금융그룹, 미래에셋증권, 교보생명 등 금융사와 우정사업본부, 한국수출입은행 등 공공 사업을 성공적으로 수행했다. 교육·자동차산업군 레퍼런스도 있다.

양사 외에도 애자일소다, 리걸 분야에서는 BHSN, 세무·회계 분야에서는 삼쩜삼 등이 AI OCR 사업을 확대하고 있다.

업계 관계자는 “기업에서 과거부터 축적해온 문서를 디지털 데이터화하기 위해 다큐먼트 AI 기술을 적극 도입하는 추세”라며 “사내 데이터가 곧 기업 특화 거대언어모델(LLM) 등 AI 학습용 데이터로 활용할 수 있다는 점에서 사업 수요가 점차 커질 것”이라고 전망했다.

박종진 기자 truth@etnews.com

Read Entire Article