파워스탯, 센서, dmidecode로 헤츠너 문제점 발견

3 weeks ago 3

Hetzner 디버깅: powerstat, sensors, dmidecode로 문제 해결

  • 배경

    • Ubicloud는 Hetzner의 AX162 서버를 도입했으나, 심각한 신뢰성 문제를 겪음.
    • AX162 서버는 이전 모델보다 성능이 뛰어나고 가격이 저렴했으나, 16배 더 자주 충돌함.
    • 여러 하드웨어 업데이트 후에야 문제 해결됨.
  • 문제 발생

    • 첫 AX162 서버 구매 후 3주 만에 서버 충돌 발생.
    • 시스템 로그에서 NULL 바이트 발견, 이는 전원 손실과 같은 갑작스러운 실패를 의미함.
    • Hetzner는 하드웨어 검사를 했으나 이상 없음.
    • 충돌 빈도가 증가하며, Hetzner는 하드웨어 결함을 발견할 때마다 서버를 교체함.
  • 초기 조사

    • 시스템 부하: 부하가 증가하면 문제가 발생할 가능성이 있다고 생각했으나, 부하가 낮거나 없을 때도 충돌 발생.
    • 온도: 센서를 사용해 온도를 측정했으나, 충돌 시점의 온도는 평균보다 높지 않았음.
    • 결함 있는 부품: dmidecode 명령어로 하드웨어 정보를 수집했으나, 충돌이 발생한 서버와 그렇지 않은 서버 간에 큰 차이 없음.
    • 전력 소비: powerstat 도구로 전력 소비를 측정했으며, Hetzner가 전력 사용을 제한했을 가능성이 있다고 의심함.
  • 충돌률 데이터 수집 및 비교

    • 연간 고장률(AFR)을 사용해 하드웨어 신뢰성을 측정함.
    • AX162 서버는 다른 모델보다 16배 더 자주 고장 발생.
    • 첫 충돌 후 80%의 서버가 24시간 내에 두 번째 충돌을 경험함.
  • 새 하드웨어로 안정성 관찰

    • Hetzner는 결함 있는 마더보드 배치를 확인하고 교체를 권장함.
    • 새로운 마더보드로 교체 후에도 충돌 발생.
    • 최신 마더보드로 교체 후 몇 달간 모니터링한 결과, 충돌 문제가 해결됨.
  • 프로세스 개선

    • 새로운 서버 모델을 도입할 때 철저한 검토 필요.
    • 새로운 하드웨어는 비핵심 작업부터 점진적으로 도입.
    • 위험 분산을 위해 더 많은 베어 메탈 제공업체 추가.
  • 결론

    • Hetzner 서버의 초기 도입은 문제를 초래했으나, 지속적인 개선을 통해 문제 해결.
    • Ubicloud는 신뢰성과 적응성을 갖춘 클라우드 솔루션을 제공하기 위해 계속 노력할 것임.

Read Entire Article