-
복잡한 문서에서 정보를 추출하기 위해 전통적 OCR과 파싱 방식이 의미를 제대로 보존하지 못함
-
Morphik은 ColPali 모델 기반의 비주얼 문서 임베딩 방식을 통해 표, 차트, 레이아웃 맥락까지 직접적으로 이해하는 방법을 구현함
- 기존 파이프라인 대비 이 방법이 정확도와 정보 보존 면에서 월등하며, 벤치마크 테스트에서 최대 95.56% 정확도 달성함
- 추가적으로, MUVERA와 Turbopuffer의 도입으로 대규모 문서 검색에서 속도 향상을 이뤄냈음
- 앞으로는 멀티문서 추론, 워크플로우 통합, 전문가급 해석 등 실질적 문서 업무 자동화가 목표임
복잡한 문서 파싱의 한계와 RAG의 고난
- 차트, 도표, 표가 혼합된 복잡한 PDF 문서에서 정보를 추출하려 할 때, OCR과 파싱 파이프라인이 원하는 정보를 자주 손실하는 문제 발생
-
중첩 표, 중요한 도표, 주석이 많은 기술 문서, 심지어 텍스트가 없는 매뉴얼 등 실제 상황에서 기존 파이프라인의 한계 체감
- 기존 파이프라인의 단계:
- PDF에 OCR 적용 (숫자나 문자를 잘못 읽을 수 있음)
-
레이아웃 감지 모델로 표/도표 구분 시도 (실패 확률 높음)
-
읽기 순서 복원 (시각적 흐름을 놓칠 수 있음)
-
도표 캡션 인식 (뉘앙스 누락 잦음)
-
텍스트 청킹 (연관 정보가 분리될 수 있음)
-
벡터 임베딩 생성 및 벡터DB 저장 (위치 정보·문맥 상실)
- 예시: 단순한 표도 "1,000"을 "l,0O0"으로 읽거나, 표와 헤더가 분리되어 총합 계산에 실패하는 사례 다수
-
도표의 범례를 본문으로 오인, 퍼센트 값이 엉뚱한 위치에 흩어지는 문제 등 실제 정보 손실 사례 빈번
새로운 접근: 시각 기반 문서 이해로의 전환
- Morphik팀은 "문서를 사람처럼 시각 객체로 이해하면 어떨까?" 라는 질문에서 전환점 발견
- 최신 연구(ColPali) 및 Vision Language Model(VLM) 의 발전으로, 이미지를 직접 임베딩하여 파싱이나 OCR 없이 문서 전체 맥락 및 시각 정보를 보존 가능
- 각 문서 페이지를 고해상도 이미지로 처리하고, 패치 단위로 분할하여 시각적·텍스트적 정보를 모두 반영한 임베딩 생성
-
SigLIP-So400m Vision Transformer가 시각 패치 임베딩을 생성하고, PaliGemma-3B 언어 모델이 문서 구조를 이해
- 질의어("Q3 매출 추이" 등)에 대해, 텍스트·차트·표·색상 등 다양한 시각적 단서까지 포함한 late interaction 검색 방식으로 관련 정보 정확히 추출
-
문서 내 위치, 레이아웃, 색상, 그래프 변화 등 모든 시각 정보 유지—사람이 문서를 한눈에 보는 것과 유사
전통적 파싱과 ColPali 방식 비교
- 기존 파싱 기반 파이프라인은 각 단계마다 정보가 손실되며, 텍스트·이미지 임베딩이 분리되어 문서 내 공간적 관계 해석이 불가능
- 반면, ColPali 방식은 하나의 시각 임베딩 공간에서 모든 정보를 통합하여 문서 전체 의미와 맥락 보존
- 실제 벤치마크(재무 문서 중심, 공개 데이터셋)에서 Morphik(ColPali 기반)은 최대 95.56% 정확도 기록(기존 LangChain+OpenAI text-embedding은 72%, OpenAI 파일 검색은 13.33%에 불과)
-
ViDoRe 벤치마크에서 시각 기반 방식이 기존 파싱 방식 대비 nDCG@5 기준 14%p 이상 높은 성능 달성
성능 최적화와 실전 적용
- 초기 방식의 단점은 연산 부하에 따른 속도 저하였으며, 패치마다 벡터 검색이 필요한 구조로 초당 수천 만건 이상의 쿼리에는 부적합했음
-
MUVERA 논문을 참고, 멀티 벡터 검색을 단일 벡터 검색으로 치환하는 방식(고정 차원 인코딩) 도입
-
Turbopuffer 특화 벡터 DB와의 결합으로 쿼리 속도를 3-4초에서 30ms 수준으로 개선
- 이로 인해 기존 텍스트 파싱 대비 월등히 빠른 속도로 수백만 건 문서 검색 가능해짐
활용 분야 및 쉬운 API 제공
- 다양한 유형 문서에서 시각적 구조와 정보 손실 없이 고정확도 검색 지원
- 복잡한 표와 차트가 중요한 금융 문서
- 도면 중심의 기술 매뉴얼
-
송장, 영수증에서의 레이아웃 기반 정보 추출
-
연구 논문 속 시각자료/수치자료 이해
-
의료 기록에서의 레이아웃 기반 관계 인식
- API는 문서 업로드 후 자연어로 질의하는 매우 단순한 구조로, "1만 달러 초과 벌금 조항 계약서 모두 보여줘" 같은 요청 처리 지원
미래 방향: 멀티문서 지능과 더 깊은 이해
- 멀티문서 인텔리전스: 여러 문서 간 상호 참조 및 정보 추적 기능 개발 중
- 단일 문서 검색을 넘어, 여러 문서간 관계 추적 및 추론(예: 계약서 조항→규제 문서→실행 매뉴얼까지 연계) 지원
- 에이전트 이해 체계: 문서 내 단순 질의응답을 넘어, 조항 추출→타 문서 검증→세부사항 크로스체크 등 청크간 논리 추론 자동화
- 워크플로우 통합: 여러 계약서 간 조건 비교, 기술 결정의 이력 추적 등 실무 프로세스에 맞는 문서 자동화 지능 고도화
한계와 앞으로의 목표
- 현재 방식은 전문가 수준의 해석과 맥락적 판단력까지는 도달하지 못함
- 금융 전문가의 심층적 해석과 같은 부분은 아직 기술적으로 미흡하고, 신뢰성, 불확실성 정량화 등 엔터프라이즈 요구에 추가 개발 필요
-
비주얼 이해와 도메인 지식 그래프의 결합, 인과관계 추론, 신뢰성 지표 제공 등이 앞으로의 주요 과제임
결론
- 문서는 시각적 지식 객체로 다루어져야 하며, Parsing의 한계를 넘어 이미지 기반 문서 이해가 RAG 환경에서 더 뛰어난 해법임
- Morphik은 문서 정보 추출의 새로운 표준을 제시하고자 하며, 복잡한 문서 워크플로우 자동화, 실제 업무 적용을 노리고 있음
- 자세한 기능 체험은 morphik.ai에서 가능