나라지식정보, 싱가포르서 공공문서 AI 사업성 확인…특수문헌 특화형 인식 기술 경쟁력

2 weeks ago 10

나라지식정보가 싱가포르에서 공공문서 AI 사업성을 확인했다.

과학기술정보통신부의 공공AX 프로젝트로 추진하는 ‘한국 근대 다문자 자료 활용 지원 AI 솔루션 개발 및 실증’을 수행 중인 나라지식정보는 2025년 4만 건의 근대자료를 수집·가공하고 OCR, 번역·요약, 의미검색 프로토타입과 워크벤치 기반 시험 환경을 마련했다. 이를 토대로 2026년에는 현장 적용 단계로 넘어가기 위해 ‘한-싱가포르 AI 혁신 교류 프로그램’과 ‘Milipol Tech X 2026’에서 공공부문 수요와 협력 파트너를 집중 확인했다.

이 사업은 단순한 문서 인식 프로젝트가 아니다. 핵심은 다문자·다서체 문서를 공공서비스 수준으로 읽어내는 OCR 엔진과, 그 결과를 번역·요약·검색까지 이어주는 통합 구조다. 전처리, 레이아웃 분석, 언어 분리, OCR, LLM 기반 오류 보정, 하이브리드 검색, RAG 연계로 이어지는 구조를 통해 수작업 중심이던 문헌 판독을 AI 기반 처리로 전환하는 것이 목표다.

올해는 20만 건 규모의 데이터 확장과 함께 한자, 일본어, 옛한글 혼용문서, 필기체, 손상 문서 대응 성능을 끌어올리는 데 초점을 둔다. OCR 정확도 95% 이상, 검색 재현율 80% 이상을 목표로 하며, 벡터DB 고도화, 지식그래프 확장, LangChain·LangGraph 기반 RAG 구조를 접목해 실제 서비스에서 활용 가능한 수준까지 완성도를 높인다는 계획이다.

싱가포르 현장에서는 총 13건의 미팅과 1건의 솔루션 피칭이 이뤄졌다. 나라지식정보에 따르면 현지에서는 의료 기록, 식민지 행정문서, 해양 로그북처럼 필기체와 손상 문서가 많은 자료의 디지털화 수요가 높았고, 범용 OCR보다 특수문헌 특화형 인식 기술이 경쟁력 포인트로 부각됐다. 저대역폭 환경과 온프레미스 수요, 접근성 기능에 대한 관심도 확인됐다.

MTX에서의 성과도 있었다. KLASS와 손상 문서·고문서 OCR 도입 협의와 옛한글 AI 모델 공동개발 가능성을 논의했고, Quantexa와는 자연어이해와 네트워크 분석 기술을 결합하는 데모 및 한국 공공기관 공동 진출 방안을 협의했다. ACE, ASME, CapVista와의 연결을 통해 현지 입주 프로그램, 정부 지원 사업, 바이어 매칭 가능성도 점검했다.

하반기부터는 국사편찬위원회 문헌 DB와의 연계, 공인시험기관 검증, 사용자 만족도 측정, 국민참여형 플랫폼 고도화를 병행할 계획이다. 국내 공공기관에 필요한 OCR 중심 공공AX 모델을 다듬는 동시에, 싱가포르에서 확인한 해양 기록·접근성 수요를 발판으로 국제 공동 실증 가능성까지 모색하겠다는 구상이다.

Read Entire Article