AI 덕분에 세탁실에서 구글 경쟁 서비스를 운영하는 남자

5 days ago 1

  • 세탁실에 둔 개인 서버로 Searcha Page/Seek Ninja라는 검색엔진을 구축해 구글에 준하는 경험을 제공하는 DIY 프로젝트
  • 20억 페이지 인덱스에서 출발해 반년 내 40억 문서를 목표로 하며, 전통적 색인 방식에 LLM 기반 키워드 확장·문맥 이해를 결합함
  • 중고 서버 부품으로 구성한 AMD EPYC 7532(32코어)·RAM 0.5TB급 장비에 총 5천 달러를 투입, 업그레이드 차익(Upgrade Arbitrage) 전략으로 비용을 낮춤
  • 클라우드 의존을 최소화하되 LLM 추론은 SambaNova의 Llama 3를 사용, Seek Ninja는 프로필 저장·위치 사용을 하지 않는 프라이버시 지향 버전
  • AI의 도입으로 저비용 확장이 가능해졌으며, 그의 15만 줄 코드베이스는 LLM을 통해 반복 개발을 가속화해 혼자서 대규모 시스템 구축이 가능했음
  • 개인·저비용 구성이면서도 로컬 검색 정확도와 속도를 확보했으며, 향후 트래픽 증가 시 코로케이션 이전을 고려하는 등 대안 검색의 실험적 가능성을 보여줌

배경: 작은 하드웨어로 ‘거의 구글 같은’ 검색 경험

  • 구글이 스탠퍼드 시절 듀플로 케이스 서버로 출발했던 역사와 대비하며, 구형 서버 한 대로도 현대적 검색 경험에 근접할수 있다는 것을 보여주는 사례
  • 30년 전 Google은 Stanford 캠퍼스에서 Backrub으로 시작하며, Duplo 블록으로 만든 케이스에 40GB 데이터를 담은 실험적 서버를 사용했음
    • IBM과 Intel의 기부로 작은 서버 랙으로 업그레이드되었으나, 2025년 현재 Google 검색은 단일 데이터 센터에도 수용 불가능한 규모로 성장
  • Ryan Pearce의 Searcha Page는 원래 Google 서버 크기만 한 기계로 현대적 검색 경험을 구현
    • 서버는 세탁기·건조기 옆에 설치되어 열·소음 문제를 완화하기 위해 침실에서 옮겨옴
    • 세탁실이라는 제약에도 실제 검색 결과 품질은 체감상 상위권에 가까운 수준으로 평가됨
  • 인덱스 규모는 현재 약 20억 문서이며 6개월 내 40억 문서 도달을 전망함
    • 비교 지표: 1998년 구글 2,400만 페이지, 2020년 4,000억 페이지
    • 절대 규모는 작지만 자체 호스팅 단일 서버로는 매우 큰 스케일임

핵심 기술: 전통 색인 + LLM 보조

  • 전체 아키텍처는 전통적 검색엔진 구성을 따르되, LLM으로 키워드 확장과 문맥 판단을 지원하는 하이브리드 설계임
    • RankBrain 등 기존 대형 검색엔진의 AI 내재화 역사를 환기하며, LLM 반감과 별개로 AI는 이미 검색의 핵심 요소였음을 강조함
    • LLM은 데이터세트 구축·문맥화에서 개발 속도·확장성을 높이는 실용적 도구로 활용됨
  • 운영자는 초기에는 LLM으로 구현했다가 전통 로직으로 대체하는 식으로 반복 개발을 수행, 약 15만 라인의 코드베이스까지 성장함
    • 반복 개발을 포함하면 실질적으로 50만 라인에 준하는 작업량으로 추정함

인프라: 자급 인덱싱과 중고 서버의 ‘업그레이드 차익’

  • 장비는 AMD EPYC 7532(32코어) 기반의 중고 서버로, 출시 당시 3천 달러+ 급 CPU가 현재 200달러 미만에 거래되는 가격 하락을 적극 활용함
    • 전체 구축비용은 5천 달러 수준이며, 이 중 스토리지에 3천 달러 내외 투입
    • RAM 0.5TB 구성 등으로 수백 동시 세션 처리 역량을 확보함
  • 자체 호스팅(셀프 호스팅) 기조로 클라우드 사용을 최소화하되, LLM 추론만은 SambaNova(Llama 3) 를 통해 저비용·고속 접근
    • Common Crawl을 비롯한 공개 웹코퍼스를 활용해 크롤러·인덱서를 가속, 의존성은 장기적으로 낮출 계획임

제품: Searcha PageSeek Ninja

  • Searcha Page: 구글과 유사한 전통 SERP UX, 로컬 검색에서도 유효한 결과 제공
    • 메타디스크립션 대신 LLM 요약으로 쿼리-문서 관련성 설명을 강화하는 구성 언급
  • Seek Ninja: 프로필 저장 없음·위치 미사용프라이버시 우선 변형
    • 시크릿 모드 대용으로 쓰기 적합한 경량·미니멀 접근
  • 수익화는 과도한 배너 대신 완만한 제휴형 광고를 시험 중이며, 트래픽临临临 증가 시 코로케이션 이전을 계획함

비교 사례: Wilson Lin의 클라우드·벡터 접근

  • 동시대의 또 다른 개인 실험으로 Wilson Lin클라우드 네이티브 전략과 자체 벡터 엔진(CoreNN) 을 결합해 초저비용 운영을 추구함
    • 문서마다 LLM 요약을 생성해 질의-문서 매칭을 다른 방식으로 표현
    • 목표는 기술이 아닌 시장·채널 문제가 더 큰 장벽이라는 인식 공유
  • Pearce는 한때 벡터 DB를 시도했으나 결과가 모호·예술적이라 표현될 정도로 부정확하여 순위 정확성 관점에서 전통 기법으로 회귀함

운용 이슈: 열·소음, 세탁실이라는 물리적 제약

  • 서버는 침실에서 로 인한 생활 문제를 유발해 유틸리티룸으로 이전, 케이블 타공 등으로 연결성을 확보함
    • 문을 오래 닫아두면 열 체류가 문제가 될 수 있어 환기가 중요 요소임
  • 클라우드 회의론 성향이지만, LLM·트래픽 한계를 고려해 데이터센터 코로케이션 이전을 트리거 기반으로 검토 중임

의미: 1인 개발의 구글 추격 실험과 LLM의 현실적 역할

  • LLM은 ‘검색 품질을 망치는 도구’ 라는 통념과 달리, 개발·스케일 가속기로서 개인에게 검색엔진 구축 능력을 제공하는 현실적 수단임
    • 전통 색인 + LLM 보조정확성·설명력을 함께 노리는 실용적 절충안임
  • 저비용 중고 서버 + 공개 코퍼스 + 저가 LLM API 조합은 대규모 빅테크 자원 없이도 대안 검색을 시도할 수 있음을 입증함
    • 향후 언어권 확장·** 지속 크롤링 비용**·스팸 저항성 등 난관이 남아 있으나, 니치 검색·** 프라이버시 지향** 분야에서 실험적 경쟁력을 보여주는 사례임

Read Entire Article