AWS에서 베어메탈로 이전한 지 2년: AWS 탈출에 대한 질문에 답하다

1 week ago 7

2년전 AWS에서 베어메탈로 이전해 연간 23만 달러를 절감했던 경험 공유 후, 커뮤니티의 다양한 질문에 대한 후속 답변을 정리한 보고서 2년간의 실전 운영 데이터를 공개하며 $120만 이상의 연간 절감 효과를 달성했다고 밝힘
실전 운영을 통해 절감액은 연간 120만 달러 이상으로 증가했으며, 이를 AI 기반 사고 요약 및 자동 코드 수정용 서버 투자에 재투자해 서비스 품질 향상으로 이어짐
MicroK8s + Ceph 스택을 기반으로 99.993% 가용성을 유지하고, 이중 데이터센터 구성으로 단일 장애 지점을 제거함
실제 운영 비용, 장애 대응, 하드웨어 수명, 보안 인증, 클라우드 대체 서비스 등 주요 쟁점을 구체적 수치와 함께 설명
결과적으로 안정성과 비용 효율 모두 향상되었으며, 일정 규모 이상의 상시 부하 시스템에서는 Bare Metal이 더 합리적이라는 결론을 제시

2년간의 운영 결과 요약

24개월 동안 MicroK8s + Ceph 스택을 프로덕션 환경에서 운영하며 99.993%의 가용성 달성
- 단일 랙 문제를 해소하기 위해 프랑크푸르트에 두 번째 랙을 추가하고, 파리 메인 랙과 DWDM 이중 연결 구성
- 로컬 NVMe와 소음 간섭 제거로 고객 지연시간을 19% 단축
절감된 비용을 베어메탈 AI 서버 구매에 재투자해, OneUptime의 LLM 기반 알림 요약 및 자동 코드 수정 기능 확장

초기 예상 절감액은 연간 $230,000이었으나 현재는 $1.2M 이상으로 증가함
- 이는 AWS 대비 약 76% 절감 효과에 해당함
- 글로벌 인건비 기준으로는 엔지니어 2~5명의 연봉에 해당하는 규모임
Savings Plans / Reserved Instances를 적용하더라도 여전히 Bare Metal이 유리함
- Savings Plans는 S3·Egress·Direct Connect 비용에는 적용되지 않음
- EKS 제어 플레인 비용 $1,260/월, NAT 게이트웨이 $600/월 등도 절감 불가
- 24/7 상시 운영형(steady) 워크로드로 리저브 인스턴스 효율이 제한적이었음

초기 마이그레이션은 약 1주일의 엔지니어링 작업으로 완료됨
- IaC 정비, 백업 정책 강화 등 기존에 필요했던 작업이 대부분이었음
현재 운영비는 다음과 같음:
- 직접 관리: 분기당 약 24시간 (패치·펌웨어 업데이트 포함)
- Remote Hands: 24개월 동안 2회만 개입 필요(주로 디스크 문제), 평균 대응 시간 27분
- 자동화: PXE 부팅(Tinkerbell), Talos 이미지 관리, Flux/Terraform 구성 자동화
운영 인력은 기존 AWS 시절보다 오히려 릴리스 속도 증가, “비용 최적화 회의” 부담 제거 효과도 확인됨

프랑크푸르트에 두 번째 랙 추가, DWDM 이중 경로 연결로 단일 장애 지점 제거
- 비동기 복제 기반 Ceph 미러링과 이중 제어 플레인 구성
- 4G/위성 기반 관리 경로 추가로 네트워크 장애 시 원격 접근 가능
MicroK8s → Talos로 전환 중
AWS Failover 백업 클러스터는 여전히 유지하며, 분기별 장애 복구 리허설 수행
Anycast+BGP 기반 Ingress로 DNS 전환 지연도 1분 미만으로 개선
2년간 99.993% 가용성 유지, 최근 AWS 리전 장애의 영향도 받지 않음

서버는 5년 감가상각 기준(2×EPYC 9654, 1TB RAM, NVMe 구성)으로 운용
- 성능 포화 시 분석 클러스터로 이관 후 신규 서버로 교체
- 절감분 덕분에 2년마다 40% 리프레시 가능해 졌으며, 여전히 AWS 대비 연간 비용 절감
Supermicro 보증 연장 + 예비 서버 3대 보유
- 실제 수명은 7~8년이지만 보수적으로 5년으로 산정함

OneUptime의 제품 철학은 자체 호스팅 가능성이므로 동일한 스택 유지가 필요함
- Kubernetes·Postgres·Redis·ClickHouse 등 오픈스택 일관성 유지
Terraform + EKS + RDS → MicroK8s + Argo Rollouts + Ceph로 진화
- 자체 포크 없이 순정 오픈소스 활용
여전히 클라우드도 병행 사용 중: AWS Glacier(백업), CloudFront(엣지 캐싱), 부하 테스트용 임시 인스턴스
클라우드는 탄력성 중심, 베어메탈은 기본 부하 중심에 적합

SOC 2 Type II, ISO 27001 인증 유지
- 코로케이션센터의 Tier III 인증·출입 로그·CCTV 자료 활용
- Terraform/Talos 설정 로그를 변경 이력 증빙으로 활용
감사인은 AWS 콘솔 스크린샷보다 이를 더 신뢰했다고 평가

Hetzner, OVH, Leaseweb, Equinix Metal, AWS Outposts 비교
- Hyperscaler는 egress 비용이 여전히 높음
- 유럽 호스트는 대규모 Ceph 클러스터와 SLA 요건 충족 어려움
- Equinix Metal은 CapEx 대비 25~30% 프리미엄 존재
- 자가 하드웨어 운용이 전력밀도·업그레이드 자유도 면에서 우위
결과적으로 15kW 랙 구성과 부품 재사용 가능성 덕분에 콜로케이션이 비용·성능 양면에서 우세