바벨의 도서관을 데이터 압축 도구로 써보려 했던 때가 떠오름 nsafs, 즉 National Security Agency Filesystem이 떠오름. 정부가 비용을 내니까 “무료”라는 설정임: https://github.com/freedomtools/nsafs 데이터 길이가 늘어날수록, π 안에서 해당 시퀀스의 인덱스와 길이가 원본 데이터보다 작을 가능성은 극도로 낮아진다는 점은 짚고 넘어갈 만함 Now, we all know that it can take a while to find a long sequence of digits in π, so for practical reasons, we should break the files up into smaller chunks that can be more readily found. 관련 글들임. 더 있음? 이것도 떠오름: https://www.spronck.net/sloot.html The SDCS is only possible if keys are allowed to become infinite, or the data store is allowed to become infinite (...) This would, of course, make the idea useless. One of the properties that π is conjectured to have is that it is normal In this implementation, to maximise performance, we consider each individual byte of the file separately, and look it up in π. π가 과거와 미래의 모든 지식, 심지어 내가 언제 죽는지도 포함한다는 걸 깨닫는 건 불편함 예전에 어떤 압축 벤치마크 참가작이 파일 이름을 압축 해제 알고리즘의 입력 일부로 취급해서 벤치마크를 교묘히 통과했던 기억이 어렴풋이 남 이건 π에 대해 아직 증명되지 않은 성질에 의존하는 것 아닌가? 모든 유한 문자열 포함성이나 정규성이 필요하지만, 둘 다 증명되지 않았음Hacker News 의견들
그 덕분에 재미있는 rabbit hole에 빠졌고, 정보 이론을 처음 접하게 됐음
결론은 데이터의 위치 주소를 표현하는 데도 데이터 자체와 거의 같은 양의 정보가 필요해서 압축에는 별로 효과가 없고, 재미있는 사고실험에 가깝다는 것
요즘 기준으로 흥미로운 점은 LLM이 이런 도구들이 실패한 목표의 요지를 실제로 달성하는 손실 압축의 한 형태라는 점임. 물론 손실이 있고, 거대한 기반이 필요함
https://youtu.be/l6DKRf-fAAM?is=ne73FCJ7ErXhzZ-v
https://youtu.be/l6DKRf-fAAM
유효한 4-그램, 즉 네 단어 시퀀스를 저장하는 대략 계산은 100억 개 × 단어당 14비트 = 전체 100억 개에 약 17GB임. 그런데 이보다 100배 작은 LLM도 일관된 산문을 쓸 수 있음
https://en.wikipedia.org/wiki/Write-only_memory_(joke)
임의의 인덱스를 고르고 그 개인 키를 상대와 공유하면, 이후 텍스트를 일회용 패드로 쓸 수 있다는 구상이었음. NSA가 해독하려면 GB/s로 생성되는 전체 스트림을 버퍼링하고 저장해야 한다는 논리였는데, 별로 실용적으로 보이지 않았음
지역번호까지 포함한 10자리 번호를 찾을 계산 자원은 없었음
In this implementation, to maximise performance, we consider each individual byte of the file separately, and look it up in π.
πfs – A data-free filesystem - https://news.ycombinator.com/item?id=36357466 - 2023년 6월, 댓글 107개
πfs – A data-free filesystem - https://news.ycombinator.com/item?id=28699499 - 2021년 9월, 댓글 30개
PiFS – The Data-Free Filesystem - https://news.ycombinator.com/item?id=26208704 - 2021년 2월, 댓글 1개
Πfs: Never worry about data again - https://news.ycombinator.com/item?id=21359338 - 2019년 10월, 댓글 1개
The π Filesystem for FUSE: Store Your Data in π - https://news.ycombinator.com/item?id=19223032 - 2019년 2월, 댓글 1개
pifs - Avoid disk space usage by saving your files in the digits of Pi - https://news.ycombinator.com/item?id=18687275 - 2018년 12월, 댓글 1개
πfs – A data-free filesystem - https://news.ycombinator.com/item?id=13869691 - 2017년 3월, 댓글 105개
Πfs: Stores your data in π - https://news.ycombinator.com/item?id=10856108 - 2016년 1월, 댓글 1개
Πfs: Never worry about data again - https://news.ycombinator.com/item?id=10847693 - 2016년 1월, 댓글 1개
File system that stores location of file in Pi - https://news.ycombinator.com/item?id=8018818 - 2014년 7월, 댓글 98개
100% Compression Using Pi - https://news.ycombinator.com/item?id=6698852 - 2013년 11월, 댓글 32개
재게시물은 1년쯤 지나면 괜찮고, 과거 스레드 링크는 더 궁금한 독자를 위한 것임
추가 읽을거리: https://en.wikipedia.org/wiki/Sloot_Digital_Coding_System
실제 인코딩 방식은 비디오의 각 줄을 데이터베이스에 저장하고, 각 프레임을 줄 조회들의 시퀀스로 인코딩한 뒤, 그 인코딩된 프레임을 또 다른 데이터베이스에 저장하는 구조였음. 각 비디오는 프레임 조회들의 시퀀스가 됨
90년대 후반 하드웨어에서 16개 비디오를 동시에 부드럽게 재생했다는 시연이 가능했던 이유가 이것임. 각 프레임이 줄 조회들의 시퀀스라서 화면을 가로로 16개로 나눠 16개 영상을 동시에 재생해도 전체 화면에 단일 영상을 재생하는 것보다 더 부담이 크지 않음
마찬가지로 각 프레임을 개별 디코딩하므로 빨리감기와 되감기도 부드러웠음. 전통적인 비디오 압축처럼 각 키프레임에서 차이를 계산할 필요가 없어서 2배속 재생도 1배속보다 더 힘들지 않았음
물론 비디오 파일을 8KB 같은 크기로 저장할 수는 없었겠지만, 예를 들어 TV 시리즈 한 시즌이 데이터베이스에 있다면 오프닝과 엔딩 크레딧은 한 번만 저장하면 됐음
하지만 π는 무한함. 그러니 Moore의 법칙이 계속 우리 편인 한 이 천재적인 장치는 작동할 것임
여기서 핵심은 conjectured임
내가 자주 집착하는 사소한 엄밀성 문제가 나와서 반가움. 구성되지 않은 무리수가 정규수이거나 모든 유한 문자열을 포함한다는 것은 아직 어떤 것도 증명되지 않았음
각 비트를 따로 보면 더 성능이 좋을 것임. 인덱스 2와 33만 있으면 되고, 이를 저장소의 비트로 효율적으로 매핑할 수 있음
또한 과거와 미래의 모든 지식을 담고 있다고도 할 수 없음. 과거와 미래에 대한 가능한 모든 거짓도 진실과 구별할 수 없는 방식으로 함께 들어 있기 때문임
정보를 의사난수 시퀀스의 오프셋으로 인코딩하는 건 정보를 직접 저장하는 것보다 저장 효율이 좋지 않음
재미있는 사실: “Chrispratt”는 고대 캘리포니아어로 “Joel McHale이 그 역할을 원하지 않았다”는 뜻임
https://dn760100.eu.archive.org/0/items/TheLibraryOfBabel/ba...
벤치마크는 파일 크기만 측정했기 때문에 그 지표를 이길 수 있었음

1 hour ago
2








English (US) ·