인터넷 아카이브 차단은 AI를 막지 못하지만 웹의 역사 기록을 지워버림

1 month ago 19

1990년대 중반부터 웹과 신문을 보존해온 인터넷 아카이브는 Wayback Machine을 통해 1조 개 이상의 웹페이지를 저장하고 있음
최근 뉴욕타임스와 가디언 등 주요 언론이 AI 스크래핑 우려로 아카이브의 크롤링을 차단하기 시작함
이러한 조치는 웹의 역사적 기록 단절을 초래하며, 기사 수정·삭제 전후의 변화를 확인할 수 있는 유일한 기록이 사라질 위험이 있음
AI 학습에 대한 법적 분쟁과 별개로, 비영리 보존 기관을 차단하는 것은 공익 훼손으로 지적됨
검색과 웹 아카이빙은 이미 공정 이용으로 법적 합법성이 확립된 영역이며, 이를 차단하면 미래 연구자들이 웹의 역사 기록을 잃게 됨

인터넷 아카이브(Internet Archive) 는 1990년대 중반부터 웹과 신문을 보존해온 세계 최대의 디지털 도서관으로, Wayback Machine을 통해 1조 개 이상의 웹페이지를 저장하고 있음
최근 몇 달 사이 뉴욕타임스(The New York Times) 가 AI 콘텐츠 스크래핑 우려를 이유로 아카이브의 크롤링을 차단하기 시작했고, The Guardian 등 다른 언론사들도 이를 따르는 움직임을 보임
이러한 차단은 단순한 기술적 제한이 아니라 역사적 기록의 단절을 초래함
- 인터넷 아카이브는 기사 수정·삭제 전후의 변화를 확인할 수 있는 유일한 기록이 되는 경우가 많음
- 언론사들이 접근을 막으면 수십 년간 축적된 웹 기록이 사라질 위험이 있음
AI 학습에 대한 법적 분쟁이 진행 중이지만, 비영리 보존 기관을 차단하는 것은 잘못된 대응으로 지적됨
- 인터넷 아카이브는 상업적 AI 시스템을 개발하지 않으며, 역사 보존이라는 공익적 목적을 수행함
- AI 접근을 통제하려는 과정에서 도서관의 기록 보존 기능까지 훼손하는 결과를 낳을 수 있음

아카이빙과 검색의 합법성

검색 가능하게 만드는 행위는 공정 이용(fair use) 으로 오랜 기간 법적으로 인정되어 왔음
- 법원은 검색 인덱스를 구축하기 위해 원본 자료를 복제하는 것이 불가피하다고 판단함
- 구글이 전체 도서를 복제해 검색 데이터베이스를 만든 사례에서도 변형적 목적(transformative purpose) 으로 인정됨
인터넷 아카이브 역시 같은 원칙에 따라 운영됨
- 물리적 도서관이 신문을 보존하듯, 아카이브는 웹의 역사 기록을 보존함
- 연구자와 기자들이 매일 이를 활용하며, 위키피디아만 해도 249개 언어의 260만 개 뉴스 기사를 아카이브에 링크함
- 수많은 블로거, 연구자, 기자들이 안정적이고 신뢰할 수 있는 출처로 의존함
검색엔진을 보호하는 법적 원칙은 아카이브와 도서관에도 동일하게 적용되어야 함
- 설령 법원이 AI 학습에 제한을 두더라도, 검색과 웹 아카이빙의 합법성은 이미 확립된 상태임