Vision Language Model로 OCR 대체하기

2 weeks ago 4

  • 이 쿡북은 다양한 사례 연구와 실습을 통해 비디오 및 이미지 처리 알고리듬을 탐구하는 오픈 소스 프로젝트임
  • 비디오 추론, 이미지 카탈로그, 패션 이미지 하이브리드 검색 등 다양한 응용 분야를 다루고 있음
  • 다른 프로젝트와 비교하여 다양한 실제 사례를 통해 알고리듬을 학습할 수 있는 장점이 있음
  • 주요 파일 및 노트북
    • 00_quickstart.ipynb: 프로젝트의 빠른 시작을 위한 가이드
    • 01_schema_showcase.ipynb: 다양한 데이터 스키마를 보여주는 사례 연구 포함
    • 02_case_study_drivers_license.ipynb: 운전면허증 인식 하기
    • 03_case_study_tv_news.ipynb: TV 뉴스 화면 이해하기
    • 04_visual_grounding.ipynb: 시각적 그라운딩 알고리듬 탐구. 이미지 박스 안에서 JSON 추출
    • 05_case_study_image_catalogue.ipynb: 패션 제품 카탈로그 분석하여 상품 설명, 카테고리, 타겟 성별, 계절 인식
    • 06_fashion_images_hybrid_search.ipynb: 패션 이미지 하이브리드 검색 사례 연구
    • advanced_finetuning_video_inference.ipynb: 비디오 추론을 위한 고급 미세 조정 기법

Read Entire Article