-
Anna’s Archive가 Spotify의 메타데이터와 음악 파일 전체를 백업해 약 300TB 규모의 토렌트 아카이브로 공개
- 약 2억5600만 곡의 메타데이터와 8600만 개의 음악 파일을 포함, 청취량의 99.6% 를 포괄
-
OGG Vorbis 160kbit/s 원본 품질로 인기곡을, OGG Opus 75kbit/s로 비인기곡을 저장해 효율적 보존 달성
- 데이터는 SQLite 데이터베이스 형태로 제공되며, 플레이리스트·오디오 피처·앨범 아트 등 세부 구조까지 포함
- 인류의 음악 유산을 자연재해·전쟁·예산 삭감 등으로부터 영구 보존하기 위한 세계 최초의 완전 공개형 음악 보존 아카이브
프로젝트 개요
- Anna’s Archive는 Spotify의 전체 음악 메타데이터와 파일을 대규모로 스크레이핑하여 백업
- 총 용량 약 300TB, 인기 순으로 그룹화된 토렌트 형태로 배포
-
2억5600만 트랙, 1억8600만 개의 고유 ISRC 코드 포함
- 이 아카이브는 누구나 미러링 가능한 완전 공개형 음악 보존 저장소로, 8600만 개의 음악 파일을 포함
- 이는 Spotify 전체 청취의 약 99.6% 를 대표
- Anna’s Archive는 기존에 텍스트 중심(책·논문 등) 보존에 집중했으나, 이번에는 음악이라는 비문자 매체로 확장
- Spotify의 구조적 스크레이핑 방법을 발견한 후, 음악 보존 중심의 아카이브 구축을 추진
기존 음악 보존의 한계
- 기존 음악 보존 시도에는 세 가지 주요 문제 존재
-
인기 아티스트 중심 편향으로 인해 비주류 음악이 소외
-
무손실 음질 집착으로 인한 비효율적 저장 용량
-
모든 음악을 대표하는 토렌트 목록 부재
- 이번 Spotify 백업은 이러한 문제를 보완해 보존 중심의 음악 아카이브를 구축
데이터 구성 및 통계
- Spotify의 약 2억5600만 트랙 중 99.9%의 메타데이터 확보
-
인기 지표(popularity) 를 기준으로 우선순위 지정
-
popularity>0 트랙은 OGG Vorbis 160kbit/s 원본 품질로 저장
-
popularity=0 트랙은 OGG Opus 75kbit/s로 재인코딩
-
2025년 7월 이전 발매된 곡 대부분 포함
- 상위 3곡(Lady Gaga·Billie Eilish·Bad Bunny)의 총 스트리밍 수가 하위 2천만~1억 곡 합계보다 많음
- 전체 곡 중 70% 이상이 청취 수 1000회 미만의 비인기곡
토렌트 배포 구조
- 데이터는 메타데이터와 음악 파일 두 부분으로 구성
- 메타데이터: SQLite DB로 제공, 약 200GB(압축)
- 오디오 분석 데이터: 4TB(압축)
- 음악 파일은 Anna’s Archive Containers (AAC) 포맷으로 배포
- Spotify의 잘못된 OGG 패킷 제거 후, 제목·ISRC·앨범 아트·리플레이게인 정보 등 메타데이터 삽입
- 일부 파일에서 REPLAYGAIN_ALBUM_PEAK 태그 오류 존재
데이터 탐색 및 분석
-
인기 분포: 대부분의 청취는 popularity 50~80 구간의 곡에서 발생
-
트랙 길이: 2분·3분·4분 단위에서 피크 발생
-
명시적(Explicit) 콘텐츠와 ISRC 중복 곡 통계 포함
-
아티스트 장르 분포: 세부 장르별 및 그룹화된 장르별 시각화 제공
-
앨범 발매 연도 분석: 최근 자동 생성·AI 생성 음악 급증
-
오디오 피처 분석: BPM 평균 약 120, loudness와 energy의 상관관계 확인
메타데이터 세부 구조
- 주요 SQLite 파일 구성
-
spotify_clean.sqlite3: 아티스트·앨범·트랙의 거의 완전한 API 복제
-
spotify_clean_audio_features.sqlite3: 트랙별 BPM, key, energy, valence 등 오디오 피처 저장
-
spotify_clean_playlists.sqlite3: 660만 개 플레이리스트, 17억 개 트랙 항목 포함
-
spotify_clean_track_files.sqlite3: 트랙과 실제 파일 간 매핑, 파일 상태·SHA256 해시·라이선서 정보 포함
- 추가 JSONL 파일로 오디오북·팟캐스트·쇼·에피소드 데이터 포함
-
spotify_2025_07_coverart.tar.torrent에는 앨범 아트 이미지 파일 저장
참여 및 보존 요청
- Anna’s Archive는 기부 및 토렌트 시딩 참여를 요청
- 목표는 자연재해·전쟁·예산 삭감 등으로부터 인류의 음악 유산을 영구 보존하는 것
추가 기능 및 실험
- 전체 Spotify 트랙을 대상으로 한 ‘True Shuffle’ 기능 구현 가능
- SQLite 쿼리를 통해 진정한 무작위 재생 목록 생성
- 향후 관심이 충분할 경우, 개별 파일 다운로드 기능 추가 가능성 언급
요약
- Anna’s Archive는 Spotify의 거의 전체 데이터를 백업해 세계 최대 공개 음악 메타데이터베이스를 구축
-
완전 공개형 보존 아카이브로서 누구나 미러링 가능
-
데이터 구조의 투명성, 기술적 정밀성, 장기 보존성을 모두 갖춘 프로젝트
- 음악 산업의 상업적 플랫폼 의존성을 넘어, 문화적 기록의 영구 보존 기반을 마련