- Mistral OCR은 세계 최고의 문서 이해 API로, 기존 모델보다 문서를 더 정확하게 이해하고 분석하는 능력을 제공
- PDF 및 이미지에서 텍스트, 미디어, 수식, 테이블을 추출하여 구조화된 출력으로 변환
- API는 현재 1000페이지/1$ (배치 처리 시 페이지당 비용 절반)로 제공
Mistral OCR의 주요 특징
-
복잡한 문서 이해 능력: 표, 이미지, 수식, LaTeX 서식까지 정확히 해석
-
다국어 및 다중 모달 지원: 다양한 언어, 글꼴, 스크립트 지원
-
업계 최고 수준의 성능: 다른 OCR 모델보다 높은 정확도를 기록
-
최고 속도: 단일 노드에서 분당 2000페이지 처리 가능
-
문서를 프롬프트로 활용 가능: JSON 등의 구조화된 출력 지원
-
온프레미스(Self-host) 옵션 제공: 기밀 문서 처리를 원하는 기업에 적합
복잡한 문서 이해
- Mistral OCR은 과학 논문, 그래프, 수식, 표, 이미지를 포함한 문서를 심층적으로 분석할 수 있음
- 예제 노트북을 통해 OCR이 PDF에서 텍스트와 이미지를 어떻게 추출하는지 확인 가능 (예제)
성능 비교 (벤치마크)
Mistral OCR은 다른 주요 OCR 모델과 비교했을 때 전반적인 성능에서 가장 높은 점수를 기록함
-
전반적 성능(Overall): 94.89 (다른 모델보다 높은 수치)
-
수식(Math) 분석 성능: 94.29 (GPT-4o보다 7점 이상 높음)
-
다국어 인식 성능: 89.55
-
스캔 문서(Scanned) 처리 성능: 98.96
-
테이블(Table) 인식 성능: 96.12 (다른 모델 대비 가장 뛰어남)
다국어 지원
Mistral OCR은 전 세계 다양한 언어와 스크립트를 처리 가능. 주요 모델과 비교 시 모든 언어에서 최고의 OCR 성능을 기록
-
러시아어(ru): 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
-
프랑스어(fr): 99.20 (Azure 97.50, Google 96.36)
-
중국어(zh): 97.11 (Azure 91.40, Google 90.89)
-
독일어(de): 99.51 (Azure 98.39, Google 97.09)
빠른 처리 속도
- Mistral OCR은 기존 OCR 모델보다 가벼우며, 단일 노드에서 최대 2000페이지/분 처리 가능
- 대량 문서 처리가 필요한 환경에서 지속적인 학습과 개선을 지원
문서를 프롬프트로 활용 (Doc-as-prompt)
- 문서에서 특정 정보를 추출하고 JSON 등의 구조화된 출력 생성 가능
-
추출된 데이터를 후속 AI 프로세스와 연결하여 자동화 가능
-
예: 법률 문서에서 특정 조항 추출 후 AI 챗봇 응답 생성
온프레미스(Self-host) 옵션
-
기업 내 기밀 문서 처리가 필요한 경우 자체 호스팅 가능
- 데이터 프라이버시와 보안이 중요한 기관 및 기업에 적합
주요 활용 사례
-
과학 연구 디지털화: 논문과 저널을 AI가 처리할 수 있는 형식으로 변환하여 연구 협업 가속화
-
역사 및 문화유산 보존: 박물관 및 비영리 단체가 역사적 문서를 디지털화하여 보존 및 공유 가능
-
고객 서비스 개선: 매뉴얼과 문서를 인덱싱하여 고객 응대 속도 향상
-
디자인, 교육, 법률 문서 AI 활용: 엔지니어링 도면, 강의 자료, 규제 서류 등을 인덱싱하여 AI 기반 정보 검색 가능
Mistral OCR 체험하기
- Mistral OCR은 Le Chat에서 무료 체험 가능 (Le Chat)
- API는 la Plateforme에서 사용 가능 (API 사용)
- 온프레미스 배포 및 기업용 맞춤 솔루션도 제공됨 (문의)