뉴스 매체들이 AI 스크래핑 우려로 Internet Archive 접근을 제한

1 month ago 13

주요 언론사들이 AI 학습용 데이터 수집을 막기 위해 Internet Archive의 접근을 차단하거나 제한 중임
The Guardian은 Internet Archive의 API와 Wayback Machine에서 기사 페이지를 제외하고, 일부 홈·토픽 페이지만 남김
The New York Times는 2025년 말부터 archive.org_bot을 robots.txt에 추가해 크롤링을 전면 차단함
Gannett(USA Today Co.) 를 비롯한 241개 뉴스 사이트가 최소 하나 이상의 Internet Archive 봇을 차단, 다수는 Common Crawl·OpenAI·Google AI도 함께 차단함
이러한 조치는 AI 기업의 무단 데이터 활용에 대한 대응이자, 동시에 디지털 기록 보존과 정보 접근성의 균형 문제를 드러냄

주요 언론사의 Internet Archive 접근 제한

The Guardian은 AI 기업이 Internet Archive를 통해 콘텐츠를 수집할 가능성을 우려해 접근을 제한함
- API와 Wayback Machine의 기사 URL 인터페이스에서 자사 기사 페이지를 제외
- 지역 홈·토픽 페이지 등은 여전히 Wayback Machine에서 접근 가능
- Robert Hahn은 “AI 기업들이 구조화된 데이터베이스를 선호하며, Internet Archive의 API가 그 경로가 될 수 있다”고 언급
The Guardian은 완전 차단은 하지 않았으며, Internet Archive의 정보 민주화 사명을 존중한다고 밝힘
- 다만 향후 봇 관리 정책 검토 과정에서 입장을 재평가 중임

The New York Times는 archive.org_bot을 robots.txt에 추가하고 Internet Archive의 크롤러를 “하드 블록”함
- “Wayback Machine이 AI 기업을 포함한 제3자에게 Times 콘텐츠를 무제한 제공한다”고 설명
Financial Times는 유료 콘텐츠 보호를 위해 OpenAI, Anthropic, Perplexity, Internet Archive 등 모든 관련 봇을 차단함
- 대부분의 FT 기사들이 유료화되어 있어, Wayback Machine에는 공개 기사만 남음

Reddit은 2025년 8월 Internet Archive의 접근을 차단함
- 이유는 AI 기업들이 Wayback Machine을 통해 Reddit 데이터를 스크래핑한 사례 때문
- Reddit은 “플랫폼 정책을 위반한 AI 기업의 활동을 방지하기 위해 제한 조치”라고 설명
Reddit은 Google과 AI 학습용 데이터 라이선스 계약을 체결한 바 있음

창립자 Brewster Kahle은 “출판사들이 Internet Archive 같은 도서관을 제한하면 공공의 역사 기록 접근성이 줄어든다”고 경고
Kahle은 Mastodon에서 “일부 컬렉션은 대량 다운로드가 불가하며, 속도 제한·필터링·Cloudflare 보안 서비스를 사용 중”이라고 밝힘
2023년 5월, 한 AI 기업이 대량 요청으로 서버 과부하를 일으켜 Internet Archive가 일시 중단된 사례가 있었음
- 이후 해당 기업은 사과와 기부를 진행함

Nieman Lab은 Ben Welsh의 1,167개 뉴스 사이트 데이터베이스를 분석해 Internet Archive 관련 차단 현황을 조사함
- 241개 뉴스 사이트가 최소 하나의 Internet Archive 봇을 차단
- 87%는 USA Today Co.(Gannett) 소유 매체로, 2025년에 archive.org_bot과 ia_archiver-web.archive.org를 robots.txt에 추가함
- 일부 Gannett 사이트는 Wayback Machine에서 “이 URL은 제외되었습니다”라는 메시지를 표시함
Gannett은 “무단 데이터 수집 방지를 위한 새로운 프로토콜을 도입했다”고 밝혔으며, 2025년 9월 한 달 동안 7,500만 개의 AI 봇을 차단, 그중 7,000만 개가 OpenAI에서 발생했다고 보고함
Group Le Monde 산하 Le Monde, Le Huffington Post 등 3개 사이트는 세 개의 Internet Archive 크롤러를 모두 차단함

Internet Archive뿐 아니라 Common Crawl, OpenAI, Google AI 등 주요 AI 크롤러도 함께 차단되는 추세
- 241개 중 240개 사이트가 Common Crawl을, 231개 사이트가 OpenAI·Google AI 봇을 차단
Common Crawl은 상업적 LLM 개발과의 연계성이 높다고 평가됨