이파피루스, 오라클에 문서 데이터 추출 '파이뮤PDF 프로' 공급

1 week ago 3
이파피루스, 오라클에 문서 데이터 추출 '파이뮤PDF 프로' 공급

문서 인공지능(AI) 기업 이파피루스(대표 김정희)는 최근 글로벌 데이터베이스 기업 오라클이 자사의 파이선 기반 문서 데이터 추출 라이브러리 '파이뮤PDF 프로(PyMuPDF Pro)'을 구독한다고 30일 밝혔다. 연간 구독 금액은 약 4만7000달러다.

'파이뮤 PDF 프로'는 AI 및 빅데이터 구축, 업무 자동화, 이미지 렌더링 등 다양한 문서 작업을 파이선환경에서 빠르고 정확하게 구현할 수 있는 문서 데이터 추출 라이브러리다. 2016년 첫 출시된 이래 2025년 10월 현재 누적 다운로드 1억1000만건을 돌파했으며, 일 평균 다운로드 100만건에 이를 정도로 전 세계 개발자들로부터 많은 사랑을 받고 있다. 국내에는 2024년 11월 정식 출시했다.

'파이뮤PDF 프로'는 복잡한 레이아웃의 문서 데이터 추출에 독보적인 성능을 자랑한다. 읽기 순서에 기반해 문서 레이아웃을 구성하며, 문서 내 좌표 정보를 포함한 단어 단위 추출 방식을 통해 다단을 포함한 복잡한 문서도 원본 구조를 그대로 살려 데이터로 추출할 수 있다.

최근 업데이트를 통해 데이터 추출 속도와 성능이 더욱 향상됐다. 현재 AI 전처리를 위해 사용되는 시중의 문서 데이터 추출 솔루션 대부분은 문서를 고해상도 이미지로 인식한 뒤 데이터를 추출하는 VLM(비전 언어 모델) 방식을 기반으로 한다. '파이뮤PDF 프로'는 이와 달리 자체 개발한 머신러닝 기반 레이아웃 분석기를 통해 문서 구조 자체를 파악해 데이터로 추출, VLM 방식을 사용하는 글로벌 유사 제품 대비 약 10배 빠른 속도로 정확한 데이터 처리가 가능하다. 테두리가 없거나 병합 셀 등을 포함한 표 문서, 스캔 이미지와 디지털 데이터가 혼합된 문서 추출에 독보적인 정확도와 속도를 자랑한다. GPU가 필요한 VLM 방식과 달리 CPU만으로도 작동해 비용 부담이 적은 것도 강점이다.

LLM(대규모 언어 모델) 및 RAG(검색 증강 생성) 특화 기능도 눈에 띈다. '파이뮤PDF 프로'는 문서 내 페이지와 위치 등의 메타 데이터를 포함한 청크(말뭉치)를 생성할 수 있으며, 추출한 문서 데이터를 LLM 및 RAG 친화적인 라마인덱스 리더(LlamaIndex Reader) 파일로 출력하는 것도 가능하다. 생성형 AI의 학습 효율을 높이는 것은 물론, 문서 기반 대화형 서비스를 개발하는 데도 유리한 기능. 추출 대상 문서로는 PDF, MS오피스, 한글 문서, 이미지 외 다양한 포맷을 지원한다.

김정아 이파피루스 부사장은 “오라클 외에도 보쉬(Bosch), DHL, 도큐사인(DocuSign), 슈나이더일렉트릭(Schneider Electric) 등 유수의 글로벌 기업이 '파이뮤PDF 프로'를 사용하고 있다”며 “11월 중 자체 행사 및 전시회 참가 등을 통해 국내 고객들께 제품을 직접 소개하는 시간을 가질 예정”이라고 말했다.

김현민 기자 minkim@etnews.com

Read Entire Article