AWS에서 베어메탈로 이전한 지 2년: AWS 탈출에 대한 질문에 답하다

1 week ago 7

  • 2년전 AWS에서 베어메탈로 이전해 연간 23만 달러를 절감했던 경험 공유 후, 커뮤니티의 다양한 질문에 대한 후속 답변을 정리한 보고서 2년간의 실전 운영 데이터를 공개하며 $120만 이상의 연간 절감 효과를 달성했다고 밝힘
  • 실전 운영을 통해 절감액은 연간 120만 달러 이상으로 증가했으며, 이를 AI 기반 사고 요약 및 자동 코드 수정용 서버 투자에 재투자해 서비스 품질 향상으로 이어짐
  • MicroK8s + Ceph 스택을 기반으로 99.993% 가용성을 유지하고, 이중 데이터센터 구성으로 단일 장애 지점을 제거함
  • 실제 운영 비용, 장애 대응, 하드웨어 수명, 보안 인증, 클라우드 대체 서비스 등 주요 쟁점을 구체적 수치와 함께 설명
  • 결과적으로 안정성과 비용 효율 모두 향상되었으며, 일정 규모 이상의 상시 부하 시스템에서는 Bare Metal이 더 합리적이라는 결론을 제시

2년간의 운영 결과 요약

  • 24개월 동안 MicroK8s + Ceph 스택을 프로덕션 환경에서 운영하며 99.993%의 가용성 달성
    • 단일 랙 문제를 해소하기 위해 프랑크푸르트에 두 번째 랙을 추가하고, 파리 메인 랙과 DWDM 이중 연결 구성
    • 로컬 NVMe와 소음 간섭 제거로 고객 지연시간을 19% 단축
  • 절감된 비용을 베어메탈 AI 서버 구매에 재투자해, OneUptime의 LLM 기반 알림 요약 및 자동 코드 수정 기능 확장

절감 효과 및 비용 비교

  • 초기 예상 절감액은 연간 $230,000이었으나 현재는 $1.2M 이상으로 증가함
    • 이는 AWS 대비 약 76% 절감 효과에 해당함
    • 글로벌 인건비 기준으로는 엔지니어 2~5명의 연봉에 해당하는 규모임
  • Savings Plans / Reserved Instances를 적용하더라도 여전히 Bare Metal이 유리함
    • Savings Plans는 S3·Egress·Direct Connect 비용에는 적용되지 않음
    • EKS 제어 플레인 비용 $1,260/월, NAT 게이트웨이 $600/월 등도 절감 불가
    • 24/7 상시 운영형(steady) 워크로드리저브 인스턴스 효율이 제한적이었음

마이그레이션 및 운영 비용

  • 초기 마이그레이션은 약 1주일의 엔지니어링 작업으로 완료됨
    • IaC 정비, 백업 정책 강화 등 기존에 필요했던 작업이 대부분이었음
  • 현재 운영비는 다음과 같음:
    • 직접 관리: 분기당 약 24시간 (패치·펌웨어 업데이트 포함)
    • Remote Hands: 24개월 동안 2회만 개입 필요(주로 디스크 문제), 평균 대응 시간 27분
    • 자동화: PXE 부팅(Tinkerbell), Talos 이미지 관리, Flux/Terraform 구성 자동화
  • 운영 인력은 기존 AWS 시절보다 오히려 릴리스 속도 증가, “비용 최적화 회의” 부담 제거 효과도 확인됨

장애 대비 및 가용성 확보

  • 프랑크푸르트에 두 번째 랙 추가, DWDM 이중 경로 연결로 단일 장애 지점 제거
    • 비동기 복제 기반 Ceph 미러링이중 제어 플레인 구성
    • 4G/위성 기반 관리 경로 추가로 네트워크 장애 시 원격 접근 가능
  • MicroK8s → Talos로 전환 중
  • AWS Failover 백업 클러스터는 여전히 유지하며, 분기별 장애 복구 리허설 수행
  • Anycast+BGP 기반 Ingress로 DNS 전환 지연도 1분 미만으로 개선
  • 2년간 99.993% 가용성 유지, 최근 AWS 리전 장애의 영향도 받지 않음

하드웨어 및 CapEx 관리

  • 서버는 5년 감가상각 기준(2×EPYC 9654, 1TB RAM, NVMe 구성)으로 운용
    • 성능 포화 시 분석 클러스터로 이관 후 신규 서버로 교체
    • 절감분 덕분에 2년마다 40% 리프레시 가능해 졌으며, 여전히 AWS 대비 연간 비용 절감
  • Supermicro 보증 연장 + 예비 서버 3대 보유
    • 실제 수명은 7~8년이지만 보수적으로 5년으로 산정함

관리형 서비스 대체 논리

  • OneUptime의 제품 철학은 자체 호스팅 가능성이므로 동일한 스택 유지가 필요함
    • Kubernetes·Postgres·Redis·ClickHouse 등 오픈스택 일관성 유지
  • Terraform + EKS + RDS → MicroK8s + Argo Rollouts + Ceph로 진화
    • 자체 포크 없이 순정 오픈소스 활용
  • 여전히 클라우드도 병행 사용 중: AWS Glacier(백업), CloudFront(엣지 캐싱), 부하 테스트용 임시 인스턴스
  • 클라우드는 탄력성 중심, 베어메탈은 기본 부하 중심에 적합

네트워크 및 보안

  • 5Gbps(95th percentile) 회선 2개 확보, AWS egress 대비 8배 저렴
  • DDoS 방어는 Cloudflare 전면 배치로 해결
  • 독립된 4G/위성 기반 관리망 확보로 장애 시 원격 접근 가능

컴플라이언스 및 감사 대응

  • SOC 2 Type II, ISO 27001 인증 유지
    • 코로케이션센터의 Tier III 인증·출입 로그·CCTV 자료 활용
    • Terraform/Talos 설정 로그를 변경 이력 증빙으로 활용
  • 감사인은 AWS 콘솔 스크린샷보다 이를 더 신뢰했다고 평가

클라우드 대안 비교

  • Hetzner, OVH, Leaseweb, Equinix Metal, AWS Outposts 비교
    • Hyperscaler는 egress 비용이 여전히 높음
    • 유럽 호스트는 대규모 Ceph 클러스터와 SLA 요건 충족 어려움
    • Equinix Metal은 CapEx 대비 25~30% 프리미엄 존재
    • 자가 하드웨어 운용이 전력밀도·업그레이드 자유도 면에서 우위
  • 결과적으로 15kW 랙 구성과 부품 재사용 가능성 덕분에 콜로케이션이 비용·성능 양면에서 우세

운영 부담(TOIL) 측정

  • 주간: 커널/펌웨어 패치 및 Ceph 점검 (1시간)
  • 월간: Kubernetes 제어 플레인 카나리 업그레이드 (2시간)
  • 분기: DR 훈련, 용량 계획, 통신사 계약 점검 (12시간)
  • 총합 월 14시간 수준, AWS 시절과 유사하나 “비용 추적”에서 “운영 자동화”로 초점이 이동함

클라우드의 여전히 유효한 경우

  • 워크로드가 스파이크형 또는 계절적 패턴인 경우
  • Aurora Serverless, Kinesis, Step Functions 등 관리형 서비스 의존도가 높은 경우
  • Kubernetes·Ceph·모니터링·사고 대응을 직접 운영할 여력이 없는 경우
  • 즉, 초기 단계나 가변 부하가 큰 비즈니스에는 여전히 클라우드 우위가 존재함

향후 계획

  • Colo 예산 예측용 Terraform 모듈 및 Runbook 공개 예정
  • Talos 기반 운영 경험을 다룬 심층 기술 포스트도 준비 중
  • 지속적으로 HN·Reddit 피드백에 응답하며 실제 수치 중심의 사례 공유를 이어갈 계획

Read Entire Article