- Cloudflare가 Browser Rendering의 새로운 /crawl 엔드포인트를 공개 베타로 제공, 단 한 번의 API 호출로 전체 웹사이트를 크롤링할 수 있음
- 시작 URL을 제출하면 페이지를 자동으로 탐색하고 헤드리스 브라우저로 렌더링, 결과를 HTML, Markdown, JSON 형식으로 반환
-
Workers AI 기반의 구조화된 JSON 출력, 크롤링 깊이, 페이지 수 제한, 와일드카드 패턴 등 범위 제어 기능과 증분 크롤링, 정적 모드 등 다양한 기능 제공
-
robots.txt 규칙을 준수하며, 비정상적 트래픽을 방지하는 crawl-delay도 지원
- 모델 학습, RAG 파이프라인 구축, 사이트 전반의 콘텐츠 리서치 및 모니터링에 활용 가능
/crawl 엔드포인트 개요
- Cloudflare의 Browser Rendering 서비스에 새로 추가된 /crawl 엔드포인트는 단일 API 호출로 전체 웹사이트를 탐색하고 콘텐츠를 수집하는 기능 제공
- 사용자는 시작 URL을 제출하면, 시스템이 자동으로 링크를 따라가며 페이지를 렌더링하고 결과를 반환
- 반환 형식은 HTML, Markdown, 구조화된 JSON 중 선택 가능
- 이 기능은 공개 베타(open beta) 상태로 제공되며, Workers Free 및 Paid 플랜 모두에서 사용 가능
- 크롤 작업은 비동기(asynchronous) 방식으로 수행됨
- URL을 제출하면 job ID를 받으며, 이후 처리 완료 시점에 결과를 조회할 수 있음
- 페이지는 순차적으로 처리되며, 완료된 결과를 단계적으로 확인 가능
주요 기능
-
다중 출력 형식 지원
- HTML, Markdown, JSON 등 다양한 형식으로 결과 반환
- JSON 형식은 Workers AI를 통해 구조화된 데이터로 제공
-
크롤 범위 제어(crawl scope controls)
-
크롤 깊이(depth), 페이지 수 제한, URL 패턴 포함/제외 설정 가능
-
자동 페이지 탐색(automatic page discovery)
-
사이트맵(sitemap), 페이지 링크, 또는 두 가지 모두를 기반으로 URL 자동 탐색
-
증분 크롤링(incremental crawling)
-
modifiedSince와 maxAge 파라미터를 사용해 변경되지 않은 페이지를 건너뛰어 시간과 비용 절감
-
정적 모드(static mode)
-
render: false 설정 시 브라우저를 실행하지 않고 정적 HTML만 가져오기, 정적 사이트의 빠른 크롤링 가능
-
정상적인 봇 동작(well-behaved bot)
-
robots.txt의 지침을 준수하며, crawl-delay 설정도 인식
활용 및 참고 문서
사용 가능 플랜
- Workers Free 및 Paid 플랜 모두에서 사용 가능