뉴스 매체들이 AI 스크래핑 우려로 Internet Archive 접근을 제한

1 month ago 13

  • 주요 언론사들이 AI 학습용 데이터 수집을 막기 위해 Internet Archive의 접근을 차단하거나 제한 중임
  • The Guardian은 Internet Archive의 API와 Wayback Machine에서 기사 페이지를 제외하고, 일부 홈·토픽 페이지만 남김
  • The New York Times는 2025년 말부터 archive.org_bot을 robots.txt에 추가해 크롤링을 전면 차단
  • Gannett(USA Today Co.) 를 비롯한 241개 뉴스 사이트가 최소 하나 이상의 Internet Archive 봇을 차단, 다수는 Common Crawl·OpenAI·Google AI도 함께 차단함
  • 이러한 조치는 AI 기업의 무단 데이터 활용에 대한 대응이자, 동시에 디지털 기록 보존과 정보 접근성의 균형 문제를 드러냄

주요 언론사의 Internet Archive 접근 제한

  • The Guardian은 AI 기업이 Internet Archive를 통해 콘텐츠를 수집할 가능성을 우려해 접근을 제한함
    • API와 Wayback Machine의 기사 URL 인터페이스에서 자사 기사 페이지를 제외
    • 지역 홈·토픽 페이지 등은 여전히 Wayback Machine에서 접근 가능
    • Robert Hahn은 “AI 기업들이 구조화된 데이터베이스를 선호하며, Internet Archive의 API가 그 경로가 될 수 있다”고 언급
  • The Guardian은 완전 차단은 하지 않았으며, Internet Archive의 정보 민주화 사명을 존중한다고 밝힘
    • 다만 향후 봇 관리 정책 검토 과정에서 입장을 재평가 중임

The New York Times와 Financial Times의 대응

  • The New York Times는 archive.org_bot을 robots.txt에 추가하고 Internet Archive의 크롤러를 “하드 블록”함
    • “Wayback Machine이 AI 기업을 포함한 제3자에게 Times 콘텐츠를 무제한 제공한다”고 설명
  • Financial Times는 유료 콘텐츠 보호를 위해 OpenAI, Anthropic, Perplexity, Internet Archive 등 모든 관련 봇을 차단함
    • 대부분의 FT 기사들이 유료화되어 있어, Wayback Machine에는 공개 기사만 남음

Reddit과 Internet Archive의 갈등

  • Reddit은 2025년 8월 Internet Archive의 접근을 차단
    • 이유는 AI 기업들이 Wayback Machine을 통해 Reddit 데이터를 스크래핑한 사례 때문
    • Reddit은 “플랫폼 정책을 위반한 AI 기업의 활동을 방지하기 위해 제한 조치”라고 설명
  • Reddit은 Google과 AI 학습용 데이터 라이선스 계약을 체결한 바 있음

Internet Archive의 입장과 대응

  • 창립자 Brewster Kahle은 “출판사들이 Internet Archive 같은 도서관을 제한하면 공공의 역사 기록 접근성이 줄어든다”고 경고
  • Kahle은 Mastodon에서 “일부 컬렉션은 대량 다운로드가 불가하며, 속도 제한·필터링·Cloudflare 보안 서비스를 사용 중”이라고 밝힘
  • 2023년 5월, 한 AI 기업이 대량 요청으로 서버 과부하를 일으켜 Internet Archive가 일시 중단된 사례가 있었음
    • 이후 해당 기업은 사과와 기부를 진행함

데이터 분석: 전 세계 뉴스 사이트의 차단 현황

  • Nieman Lab은 Ben Welsh의 1,167개 뉴스 사이트 데이터베이스를 분석해 Internet Archive 관련 차단 현황을 조사함
    • 241개 뉴스 사이트가 최소 하나의 Internet Archive 봇을 차단
    • 87%는 USA Today Co.(Gannett) 소유 매체로, 2025년에 archive.org_bot과 ia_archiver-web.archive.org를 robots.txt에 추가함
    • 일부 Gannett 사이트는 Wayback Machine에서 “이 URL은 제외되었습니다”라는 메시지를 표시함
  • Gannett은 “무단 데이터 수집 방지를 위한 새로운 프로토콜을 도입했다”고 밝혔으며, 2025년 9월 한 달 동안 7,500만 개의 AI 봇을 차단, 그중 7,000만 개가 OpenAI에서 발생했다고 보고함
  • Group Le Monde 산하 Le Monde, Le Huffington Post 등 3개 사이트는 세 개의 Internet Archive 크롤러를 모두 차단함

AI 관련 크롤러 차단의 확산

  • Internet Archive뿐 아니라 Common Crawl, OpenAI, Google AI 등 주요 AI 크롤러도 함께 차단되는 추세
    • 241개 중 240개 사이트가 Common Crawl을, 231개 사이트가 OpenAI·Google AI 봇을 차단
  • Common Crawl은 상업적 LLM 개발과의 연계성이 높다고 평가됨

인터넷 보존과 정보 접근의 균형 문제

  • Internet Archive는 미국 내 가장 포괄적인 웹 보존 프로젝트로, 많은 뉴스 조직이 자체 보존 역량을 갖추지 못한 상황
  • 2025년 12월, Poynter와 Internet Archive는 지역 뉴스 보존 훈련 프로그램을 공동 발표함
  • Hahn은 “Internet Archive는 선의로 운영되지만, 좋은 의도가 오용되는 부작용이 발생하고 있다”고 언급함

Read Entire Article