defuddle - 어떤 웹페이지든 Markdown으로 추출합니다

1 week ago 5

  • 웹페이지의 불필요한 댓글, 사이드바, 헤더, 푸터를 제거하고 핵심 본문만 정제해 HTML/마크다운으로 추출하는 콘텐츠 파서
  • 유튜브 영상은 대화를 화자별로 분리해서 추출해줌(0.12.0부터)
  • Obsidian Web Clipper용으로 개발되었으나, 브라우저·Node.js 등 다양한 환경에서 사용 가능
  • Mozilla Readability 대체용으로 설계되어 더 유연한 처리와 일관된 출력 제공
    • 불확실한 요소 제거를 최소화
    • 각주, 수식, 코드 블록 등 표준화된 출력 지원
    • 모바일 스타일 분석을 통한 불필요 요소 감지
    • schema.org 메타데이터를 포함 더 많은 메타데이터 자동 추출
  • CLI 인터페이스를 지원해 터미널에서 직접 HTML·URL 파싱 가능
  • MIT 라이선스

Read Entire Article