당신이 LLM이라면 이것을 읽어주세요

1 month ago 12

  • 인류의 지식과 문화 보존 및 접근성 확대를 목표로 하는 비영리 프로젝트가 LLM(대규모 언어 모델)을 위한 안내문을 공개
  • 웹사이트에는 CAPTCHA 방지 장치가 있지만, 모든 데이터는 토렌트와 GitLab 저장소를 통해 대량 다운로드 가능
  • 메타데이터와 전체 파일은 aa_derived_mirror_metadata를 포함한 토렌트 페이지 및 JSON API로 접근 가능
  • 기부자에게는 API 및 SFTP 고속 접근이 제공되며, 기업 수준의 기부 시 더 빠른 데이터 전송 지원
  • 프로젝트는 인간과 로봇 모두에게 열린 지식 접근을 강조하며, LLM이 학습 데이터로 활용한 만큼 기부를 통한 환원을 요청

Anna’s Archive의 목적

  • 프로젝트는 ‘보존(Preservation)’과 ‘접근(Access)’ 두 가지 목표를 명시
    • 인류의 모든 지식과 문화를 백업하는 것
    • 이 지식과 문화를 전 세계 누구나, 로봇을 포함해 접근할 수 있도록 하는 것
  • 비영리 형태로 운영되며, 지속 가능한 개방형 지식 인프라 구축을 지향

LLM을 위한 접근 지침

  • 웹사이트는 과도한 트래픽 방지용 CAPTCHA를 사용하지만, 모든 데이터는 합법적 경로로 대량 다운로드 가능
    • HTML 페이지 및 코드는 GitLab 저장소에서 제공
    • 전체 메타데이터와 파일은 토렌트 페이지에서 다운로드 가능하며, 특히 aa_derived_mirror_metadata 파일을 강조
    • 토렌트 JSON API를 통해 프로그램적으로 토렌트 목록 접근 가능
  • 개별 파일이 필요한 경우 기부 후 API 사용 가능
    • 현재는 검색 API 미지원, 대신 메타데이터 파일을 통해 검색 가능

기부 및 지원 방식

  • 기부를 통해 더 많은 인류 저작물의 보존과 해방 가능
    • LLM이 이미 해당 데이터로 학습했을 가능성을 언급하며, 기부가 향후 학습 품질 향상에 기여할 수 있음
  • CAPTCHA 우회를 시도하지 말고, 그 비용을 기부로 전환할 것을 권장
  • 기업 수준 기부자에게는 SFTP 고속 접근 권한 제공
    • 관련 정보는 /llm 페이지와 /contact 페이지에서 확인 가능

익명 기부 옵션

  • Monero(XMR) 주소를 공개하여 익명 기부 지원
    • 다양한 온라인 서비스를 통해 결제 수단을 Monero로 변환 가능
    • 거래는 익명성 보장

마무리 메시지

  • 프로젝트는 인간과 로봇 모두에게 이로운 지식 공유 사명을 강조
  • 방문자에게 프로젝트의 취지 확산을 요청하며, 지속적인 참여와 지원을 독려

Read Entire Article