내가 저장해 둔 Pocket 링크들로 o3를 이용해 나를 프로필링해 보았음

18 hours ago 1

  • Pocket 서비스 종료를 앞두고 7년간 저장한 약 900개의 기사 데이터를 분석함
  • o3 챗봇을 활용하여 단순한 URL 목록만으로 포괄적인 개인 프로파일링 실험을 진행함
  • o3는 나이, 지역, 직업, 가족 상황 등 세밀한 개인 정보를 상당히 정확하게 추론함
  • CSV 데이터를 직접 복사해 붙여넣을 때 분석 정확도가 파일 첨부 방식보다 확연하게 높음
  • 이와 같은 기술은 누구나 활용할 수 있어 기업 수준의 데이터 분석이 개인에게도 개방되는 흐름이 강조됨

Pocket 아카이브 데이터 분석 과정

  • Pocket 서비스가 종료를 앞두고 있어, 작성자는 자신의 저장 글 전체(약 900개, 약 7년 분량)를 내려받아 xsv 툴로 간단하게 분석함
  • 데이터에는 제목, URL, 저장 시각, 태그, 읽음 상태 등이 포함되어 있음
  • 가장 오래된 기록은 2018년 7월, 최신 기록은 2025년 6월임

o3 챗봇을 통한 자기 프로필링 실험

  • Simon Willison의 o3 geoguess 챌린지에서 착안, 자신이 Pocket에 저장한 링크 목록만을 o3에게 제시하여 본인에 대한 최대한의 프로필 추론을 요청함
  • 구체적으로 o3에게 다음과 같은 차원을 바탕으로 분석을 요구함
    • 나이, 성별, 지역, 학력, 직업, 수입, 정치 성향, 투자 성향, 정보 소비 방식, 가족 및 건강 상태 등

o3의 분석 결과

핵심 인구통계 추론

  • 나이: 30대 중후반 ~ 40대 초반 (직무 경력, FIRE 계산, 양육 관련 저장글 반영)
  • 성별: 남성 (공학/해킹 문화 집중, 아버지 중심의 육아 글 등)
  • 거주지역: 미국 버지니아 해안 지역 (지역 부동산, 뉴스 중심의 기사 저장 경향)
  • 학력: 컴퓨터공학 관련 학사 또는 석사 (심층 보안/AI 논문, Unix 역사, 학술 PDF 등)
  • 산업 및 직무: 보안 및 인프라에 특화된 시니어/스태프 소프트웨어 엔지니어 (취약점, 포지션 관련 글, 보안 커리어 라더 등)
  • 수입: 약 15만~22만 달러 가구 소득 (연봉대, FIRE 산출, 고소득자 절세 등)
  • 가족/관계: 기혼, 어린 자녀 3~4명 (쌍둥이 엄마 수면 글, 가톨릭 가족 테이블, 홈스쿨링)

심리 및 성향

  • 정치: 경제적으로 보수적, 시민 자유주의 + 전통사회 지향 (절약, 가톨릭 컨텐츠, 개인정보 보호, 빅테크 검열 비판 등)
  • 위험 성향: 직업적으로는 높음(보안 연구, 부 프로젝트), 금융적으로는 중간(인덱스 투자, FI/RE, 자립 지향)
  • 학습 스타일: 자기 주도, 텍스트·롱폼·오디오 위주(Pocket, RSS, PDF, 팟캐스트, 컨퍼런스 강연 수집)
  • 정보 소비: 심층 테크 60%, 재테크/FIRE 20%, 육아/가정 10%, 신앙/문화 10%
  • 주요 인생 패턴: 순수 엔지니어에서 기술 리더십·가족 중심 삶으로 전환, FI 목표
  • 연중 이슈: 연말/연초 커리어 플랜, 여름 홈스쿨링·부동산·해변, 가을 보안컨퍼런스

세부 단서

  • 신앙: 가톨릭·보수적 기독교 사이트 정기적 저장, 실천적 신앙인
  • 개인정보 및 자가 호스팅: 실험적 시도 후 실용적 이유로 포기 경향
  • 메이커 기질: 목공·음향·E-ink DIY 등 손수 프로젝트 선호
  • 건강관리: 실용적 바이오해킹(수면, 유산소, Huberman)
  • 글쓰기 욕구: 퍼스널 브랜딩, 블로깅 저장글 등 자기 생각 정리 욕구 꾸준

간략 "사용자 매뉴얼"

  • 동기: 자율성, 전문성, 절약, 가족 시간, 신앙 실천
  • 맹점: 무한 분석/연구(읽지 않은 글 대량 저장) 경향
  • 최적 콘텐츠 형태: 롱폼 아티클, 이동/집안일 중 팟캐스트, 코딩은 인터랙티브 문서
  • 현재 주요 목표: FIRE 계획 완성, 공개 보안 툴 출시, 홈스쿨 커리큘럼 공식화, 지속적 블로깅

실험자 소감

  • 실제 o3의 분석 결과는 자신의 나이, 지역, 가족 구조 등을 놀라울 정도로 정확히 맞춤
  • 단순히 해커뉴스 위주 저장글이라고 생각했으나, 개인 "좋아요" 데이터만으로도 상당히 깊이 있는 추론이 가능함을 체감

데이터 입력 물리 방식에 따른 결과 차이

  • CSV 데이터를 직접 붙여넣기 방식이 파일 첨부 방식보다 o3의 분석 품질이 높음
  • 파일 첨부 시 o3가 데이터를 코드로 세부 샘플링/분석하려는 데 지나치게 집중하게 되어, 스토리텔링이 약해짐

시사점

  • 광고 회사들이 평소 관심사 데이터로 우리를 프로파일링해왔다는 것은 모두 알고 있음
  • 이제는 Google, Facebook 등만이 아니라, 누구나 이 수준의 데이터 해석·분석 능력을 쉽게 활용할 수 있다는 것이 더 중요한 포인트임
  • 작성자는 이 분석 결과를 개인화 콘텐츠 추천 시스템 개발에 활용할 계획임

Read Entire Article