- 2년전 AWS에서 베어메탈로 이전해 연간 23만 달러를 절감했던 경험 공유 후, 커뮤니티의 다양한 질문에 대한 후속 답변을 정리한 보고서 2년간의 실전 운영 데이터를 공개하며 $120만 이상의 연간 절감 효과를 달성했다고 밝힘
- 실전 운영을 통해 절감액은 연간 120만 달러 이상으로 증가했으며, 이를 AI 기반 사고 요약 및 자동 코드 수정용 서버 투자에 재투자해 서비스 품질 향상으로 이어짐
-
MicroK8s + Ceph 스택을 기반으로 99.993% 가용성을 유지하고, 이중 데이터센터 구성으로 단일 장애 지점을 제거함
-
실제 운영 비용, 장애 대응, 하드웨어 수명, 보안 인증, 클라우드 대체 서비스 등 주요 쟁점을 구체적 수치와 함께 설명
- 결과적으로 안정성과 비용 효율 모두 향상되었으며, 일정 규모 이상의 상시 부하 시스템에서는 Bare Metal이 더 합리적이라는 결론을 제시
2년간의 운영 결과 요약
- 24개월 동안 MicroK8s + Ceph 스택을 프로덕션 환경에서 운영하며 99.993%의 가용성 달성
- 단일 랙 문제를 해소하기 위해 프랑크푸르트에 두 번째 랙을 추가하고, 파리 메인 랙과 DWDM 이중 연결 구성
-
로컬 NVMe와 소음 간섭 제거로 고객 지연시간을 19% 단축
- 절감된 비용을 베어메탈 AI 서버 구매에 재투자해, OneUptime의 LLM 기반 알림 요약 및 자동 코드 수정 기능 확장
절감 효과 및 비용 비교
- 초기 예상 절감액은 연간 $230,000이었으나 현재는 $1.2M 이상으로 증가함
- 이는 AWS 대비 약 76% 절감 효과에 해당함
- 글로벌 인건비 기준으로는 엔지니어 2~5명의 연봉에 해당하는 규모임
-
Savings Plans / Reserved Instances를 적용하더라도 여전히 Bare Metal이 유리함
- Savings Plans는 S3·Egress·Direct Connect 비용에는 적용되지 않음
- EKS 제어 플레인 비용 $1,260/월, NAT 게이트웨이 $600/월 등도 절감 불가
-
24/7 상시 운영형(steady) 워크로드로 리저브 인스턴스 효율이 제한적이었음
마이그레이션 및 운영 비용
- 초기 마이그레이션은 약 1주일의 엔지니어링 작업으로 완료됨
- IaC 정비, 백업 정책 강화 등 기존에 필요했던 작업이 대부분이었음
- 현재 운영비는 다음과 같음:
-
직접 관리: 분기당 약 24시간 (패치·펌웨어 업데이트 포함)
-
Remote Hands: 24개월 동안 2회만 개입 필요(주로 디스크 문제), 평균 대응 시간 27분
-
자동화: PXE 부팅(Tinkerbell), Talos 이미지 관리, Flux/Terraform 구성 자동화
- 운영 인력은 기존 AWS 시절보다 오히려 릴리스 속도 증가, “비용 최적화 회의” 부담 제거 효과도 확인됨
장애 대비 및 가용성 확보
- 프랑크푸르트에 두 번째 랙 추가, DWDM 이중 경로 연결로 단일 장애 지점 제거
- 비동기 복제 기반 Ceph 미러링과 이중 제어 플레인 구성
-
4G/위성 기반 관리 경로 추가로 네트워크 장애 시 원격 접근 가능
- MicroK8s → Talos로 전환 중
- AWS Failover 백업 클러스터는 여전히 유지하며, 분기별 장애 복구 리허설 수행
- Anycast+BGP 기반 Ingress로 DNS 전환 지연도 1분 미만으로 개선
- 2년간 99.993% 가용성 유지, 최근 AWS 리전 장애의 영향도 받지 않음
하드웨어 및 CapEx 관리
- 서버는 5년 감가상각 기준(2×EPYC 9654, 1TB RAM, NVMe 구성)으로 운용
- 성능 포화 시 분석 클러스터로 이관 후 신규 서버로 교체
- 절감분 덕분에 2년마다 40% 리프레시 가능해 졌으며, 여전히 AWS 대비 연간 비용 절감
- Supermicro 보증 연장 + 예비 서버 3대 보유
- 실제 수명은 7~8년이지만 보수적으로 5년으로 산정함
관리형 서비스 대체 논리
-
OneUptime의 제품 철학은 자체 호스팅 가능성이므로 동일한 스택 유지가 필요함
- Kubernetes·Postgres·Redis·ClickHouse 등 오픈스택 일관성 유지
-
Terraform + EKS + RDS → MicroK8s + Argo Rollouts + Ceph로 진화
- 여전히 클라우드도 병행 사용 중: AWS Glacier(백업), CloudFront(엣지 캐싱), 부하 테스트용 임시 인스턴스
- 클라우드는 탄력성 중심, 베어메탈은 기본 부하 중심에 적합
네트워크 및 보안
-
5Gbps(95th percentile) 회선 2개 확보, AWS egress 대비 8배 저렴
- DDoS 방어는 Cloudflare 전면 배치로 해결
- 독립된 4G/위성 기반 관리망 확보로 장애 시 원격 접근 가능
컴플라이언스 및 감사 대응
-
SOC 2 Type II, ISO 27001 인증 유지
- 코로케이션센터의 Tier III 인증·출입 로그·CCTV 자료 활용
-
Terraform/Talos 설정 로그를 변경 이력 증빙으로 활용
- 감사인은 AWS 콘솔 스크린샷보다 이를 더 신뢰했다고 평가
클라우드 대안 비교
-
Hetzner, OVH, Leaseweb, Equinix Metal, AWS Outposts 비교
- Hyperscaler는 egress 비용이 여전히 높음
- 유럽 호스트는 대규모 Ceph 클러스터와 SLA 요건 충족 어려움
- Equinix Metal은 CapEx 대비 25~30% 프리미엄 존재
- 자가 하드웨어 운용이 전력밀도·업그레이드 자유도 면에서 우위
- 결과적으로 15kW 랙 구성과 부품 재사용 가능성 덕분에 콜로케이션이 비용·성능 양면에서 우세
운영 부담(TOIL) 측정
- 주간: 커널/펌웨어 패치 및 Ceph 점검 (1시간)
- 월간: Kubernetes 제어 플레인 카나리 업그레이드 (2시간)
- 분기: DR 훈련, 용량 계획, 통신사 계약 점검 (12시간)
- 총합 월 14시간 수준, AWS 시절과 유사하나 “비용 추적”에서 “운영 자동화”로 초점이 이동함
클라우드의 여전히 유효한 경우
- 워크로드가 스파이크형 또는 계절적 패턴인 경우
-
Aurora Serverless, Kinesis, Step Functions 등 관리형 서비스 의존도가 높은 경우
-
Kubernetes·Ceph·모니터링·사고 대응을 직접 운영할 여력이 없는 경우
- 즉, 초기 단계나 가변 부하가 큰 비즈니스에는 여전히 클라우드 우위가 존재함
향후 계획
-
Colo 예산 예측용 Terraform 모듈 및 Runbook 공개 예정
- Talos 기반 운영 경험을 다룬 심층 기술 포스트도 준비 중
- 지속적으로 HN·Reddit 피드백에 응답하며 실제 수치 중심의 사례 공유를 이어갈 계획