RAG에 있서 파싱은 필요 없다: 이미지만 사용하라

13 hours ago 1

복잡한 문서에서 정보를 추출하기 위해 전통적 OCR과 파싱 방식이 의미를 제대로 보존하지 못함
Morphik은 ColPali 모델 기반의 비주얼 문서 임베딩 방식을 통해 표, 차트, 레이아웃 맥락까지 직접적으로 이해하는 방법을 구현함
기존 파이프라인 대비 이 방법이 정확도와 정보 보존 면에서 월등하며, 벤치마크 테스트에서 최대 95.56% 정확도 달성함
추가적으로, MUVERA와 Turbopuffer의 도입으로 대규모 문서 검색에서 속도 향상을 이뤄냈음
앞으로는 멀티문서 추론, 워크플로우 통합, 전문가급 해석 등 실질적 문서 업무 자동화가 목표임

복잡한 문서 파싱의 한계와 RAG의 고난

차트, 도표, 표가 혼합된 복잡한 PDF 문서에서 정보를 추출하려 할 때, OCR과 파싱 파이프라인이 원하는 정보를 자주 손실하는 문제 발생
중첩 표, 중요한 도표, 주석이 많은 기술 문서, 심지어 텍스트가 없는 매뉴얼 등 실제 상황에서 기존 파이프라인의 한계 체감
기존 파이프라인의 단계:
- PDF에 OCR 적용 (숫자나 문자를 잘못 읽을 수 있음)
- 레이아웃 감지 모델로 표/도표 구분 시도 (실패 확률 높음)
- 읽기 순서 복원 (시각적 흐름을 놓칠 수 있음)
- 도표 캡션 인식 (뉘앙스 누락 잦음)
- 텍스트 청킹 (연관 정보가 분리될 수 있음)
- 벡터 임베딩 생성 및 벡터DB 저장 (위치 정보·문맥 상실)
예시: 단순한 표도 "1,000"을 "l,0O0"으로 읽거나, 표와 헤더가 분리되어 총합 계산에 실패하는 사례 다수
도표의 범례를 본문으로 오인, 퍼센트 값이 엉뚱한 위치에 흩어지는 문제 등 실제 정보 손실 사례 빈번

Morphik팀은 "문서를 사람처럼 시각 객체로 이해하면 어떨까?" 라는 질문에서 전환점 발견
최신 연구(ColPali) 및 Vision Language Model(VLM) 의 발전으로, 이미지를 직접 임베딩하여 파싱이나 OCR 없이 문서 전체 맥락 및 시각 정보를 보존 가능
각 문서 페이지를 고해상도 이미지로 처리하고, 패치 단위로 분할하여 시각적·텍스트적 정보를 모두 반영한 임베딩 생성
SigLIP-So400m Vision Transformer가 시각 패치 임베딩을 생성하고, PaliGemma-3B 언어 모델이 문서 구조를 이해
질의어("Q3 매출 추이" 등)에 대해, 텍스트·차트·표·색상 등 다양한 시각적 단서까지 포함한 late interaction 검색 방식으로 관련 정보 정확히 추출
문서 내 위치, 레이아웃, 색상, 그래프 변화 등 모든 시각 정보 유지—사람이 문서를 한눈에 보는 것과 유사

기존 파싱 기반 파이프라인은 각 단계마다 정보가 손실되며, 텍스트·이미지 임베딩이 분리되어 문서 내 공간적 관계 해석이 불가능
반면, ColPali 방식은 하나의 시각 임베딩 공간에서 모든 정보를 통합하여 문서 전체 의미와 맥락 보존
실제 벤치마크(재무 문서 중심, 공개 데이터셋)에서 Morphik(ColPali 기반)은 최대 95.56% 정확도 기록(기존 LangChain+OpenAI text-embedding은 72%, OpenAI 파일 검색은 13.33%에 불과)
ViDoRe 벤치마크에서 시각 기반 방식이 기존 파싱 방식 대비 nDCG@5 기준 14%p 이상 높은 성능 달성

멀티문서 인텔리전스: 여러 문서 간 상호 참조 및 정보 추적 기능 개발 중
- 단일 문서 검색을 넘어, 여러 문서간 관계 추적 및 추론(예: 계약서 조항→규제 문서→실행 매뉴얼까지 연계) 지원
에이전트 이해 체계: 문서 내 단순 질의응답을 넘어, 조항 추출→타 문서 검증→세부사항 크로스체크 등 청크간 논리 추론 자동화
워크플로우 통합: 여러 계약서 간 조건 비교, 기술 결정의 이력 추적 등 실무 프로세스에 맞는 문서 자동화 지능 고도화

문서는 시각적 지식 객체로 다루어져야 하며, Parsing의 한계를 넘어 이미지 기반 문서 이해가 RAG 환경에서 더 뛰어난 해법임
Morphik은 문서 정보 추출의 새로운 표준을 제시하고자 하며, 복잡한 문서 워크플로우 자동화, 실제 업무 적용을 노리고 있음
자세한 기능 체험은 morphik.ai에서 가능