-
Anthropic이 AI 챗봇 Claude를 훈련하기 위해 중고 도서 수백만 권을 절단 및 스캔했다고 판사가 밝힘
- 별도로 700만 권 이상의 불법 복제 도서를 다운로드한 사실도 판결문에서 언급됨
- 판사는 구입 도서를 디지털화해 훈련용 데이터로 사용하는 행위는 공정 사용에 해당한다고 판단함
- 반면, 불법 복제본 데이터 활용은 공정 사용으로 인정하지 않으며 저작권 침해임을 강조함
- 이번 판결은 AI 모델 훈련 시 저작권 적용 관련한 중요한 선례로 평가받고 있음
개요
- 미국 캘리포니아 북부 지방 법원의 William Alsup 판사는 Anthropic가 AI 챗봇 Claude 훈련을 위해 데이터 소스로 도서, 소셜 미디어 게시물, 동영상 등 다양한 자료를 사용했다고 분석했음
-
Anthropic는 수백만 달러를 투자해 대량의 중고 도서를 구매한 뒤, 제본을 분리하고 페이지를 절단해 디지털 파일로 변환함
- 변환된 파일을 사내 리서치 라이브러리에 저장했으며, 원본 도서는 처분됨
- 또한, Amazon과 Alphabet의 지원을 받는 Anthropic는 7백만 권이 넘는 불법 복제 도서를 별도로 다운로드해 Claude 모델 훈련에 이용함
도서 활용 및 불법 복제본 활용 과정
- Anthropic의 공동 창립자 Ben Mann은 2021년에 Library Genesis에서 최소 500만 권의 도서를 불법적으로 다운로드함을 인정함
- 2022년에는 Pirate Library Mirror에서 최소 200만 권을 추가로 다운로드함
- 공동 창립자 겸 CEO Dario Amodei는 "법적·관행적·비즈니스적 번거로움을 피하기 위해 도서를 훔치는(steal) 것을 더 선호"했다고 언급함
- 2023년에는 세 명의 작가가 Anthropic를 상대로 자사의 도서 불법 복제본을 무단으로 사용했다는 이유로 집단 소송을 제기함
판사의 판단: 도서 공정 사용과 도서 해적판(불법 복제) 구분
-
포인트 1: 공정 사용 인정
- 판사는 Anthropic의 대량 도서 디지털화 및 AI 학습 데이터로의 사용을 "매우 변형적(exceedingly transformative) "이라 판단
- 판결문에서는 "Anthropic의 LLM은 기존 문서를 단순 복제하거나 대체하려는 것이 아니라, 완전히 다른 것을 창조하기 위해 학습한다"고 언급함
- 회사가 직접 구매한 도서를 디지털화하여 라이브러리에 보관하는 행위는 공정 사용에 해당함
-
포인트 2: 불법 복제본 사용은 공정 사용 아님
- 판사는 Anthropic가 해적판(불법 복제본) 도서를 데이터로 활용한 점에 대해 단호하게 비판함
- "Anthropic는 중앙 라이브러리에서 불법 복제 도서를 사용할 권리가 없으며, 영구적·범용 라이브러리 구축이 자체적으로 공정 사용을 정당화하지 않는다"고 명시함
영향과 업계 동향
- 이번 판결은 저작권 보호 도서를 AI 모델 훈련 데이터로 활용하는 것이 공정 사용에 포함되는지에 대한 첫 사례 중 하나임
- 최근 OpenAI 및 여러 생성형 AI 기업들을 상대로 창작자, 아티스트, 언론사 등이 유사 소송을 연이어 제기하고 있음
- AI 업계는 AI 모델 훈련이 공정 사용의 범주라 주장하며, 크리에이터들은 자신의 권리가 침해됐다는 입장임
- 최근 Disney는 AI 이미지 생성 기업 Midjourney를 상대로 자사 캐릭터 저작권 침해 소송을 제기함
결론
- Anthropic의 도서 디지털화 및 공정 사용 관련 부분은 AI 연구 및 저작권 해석에 전환점이 되는 판례로 평가됨
- 반대로, 불법 복제본 활용에 대해서는 명확한 저작권 침해로 규정되어 향후 AI 학습 데이터 소싱 기준에 중요한 참고점이 됨