오늘, Amazon의 인재 유출로 AWS가 위기에 직면함

11 hours ago 1

  • AWS의 대규모 장애가 발생함에 따라 근본 원인으로 DNS 문제가 다시 한번 지목됨
  • 이번 장애 대응 과정에서 경험 많은 엔지니어들의 집단 이탈이 문제 해결 지연의 주요 요인으로 추측됨
  • AWS 내에서 지난 몇 년간 수천 명의 인력 감축조직 이탈이 일어났으며, 이로 인해 사업 연속성과 전문성이 저하됨
  • 과거 구성원들이 보유했던 암묵지와 조직 내 전문성의 상실이 복구 시간 및 대응 능력 약화로 이어짐
  • AWS는 해당 사안을 ‘고립된 사고’ 로 규정할 것으로 예상되나, 조직의 지속적인 인재 유출이 향후 장애 위험을 높이는 요인임

AWS 대규모 장애와 인재 유출의 영향

장애 발생 배경

  • 오랜 기간 시스템 관리자들 사이에서 통용되던 "It's always DNS"라는 농담처럼, 많은 서비스 장애의 중심에 항상 DNS 이슈가 자리함
  • 10월 20일 12:11 AM(PDT)에 AWS US-EAST-1 리전에서 서비스 오류율 증가 및 지연이 확인됨
  • 약 한 시간 후, DynamoDB 엔드포인트에 대한 요청에서 심각한 오류가 발생함이 공식적으로 확인됨
  • 2:01 AM 이후, DynamoDB API 엔드포인트의 DNS 해상도 문제가 실제 근본 원인으로 지목되며, 해당 장애가 연쇄적으로 기타 서비스 장애를 야기함
  • DynamoDB는 다양한 AWS 서비스의 기반이 되는 핵심 인프라 서비스로, 이 서비스 장애 시 영향 범위가 매우 광범위

장애 처리 및 대응 문제

  • 이번 장애로 인해 인터넷 전반에 걸쳐 뱅킹, 게임, 소셜미디어, 공공서비스 등 다양한 분야에서 서비스 중단 현상 발생함
  • AWS는 전통적으로 장애 발생 시 상세한 정보를 순차적으로 공개하지만, 이번 경우 “문제가 발생”한 시점부터 “단일 엔드포인트 문제로 추정”하는 데까지 약 75분이 소요됨
  • 장애 인지와 원인 식별까지 상당한 시간이 걸린 것은, 투명성 부족이라기보다 경험 부족에 기인함으로 분석됨
  • 복구 작업이 지체된 동안 AWS 상태 페이지는 ‘모든 서비스 정상’ 으로 표시되어 있었다는 점이 아쉬운 대목임

경험 있는 인재 유출에 대한 의심

  • 주요 장애 대응 인력 부족이 장애 장기화의 핵심 원인이라는 의문이 제기됨
  • 전통적으로 AWS는 리전 한 곳만 장애가 발생해도 크게 이슈화될 만큼 고도의 인프라 운영 능력을 자랑했으나, 복잡성이 크고, 과거와 유사한 이슈가 반복될수록 현장 경험이 중요
  • 2023년 말 Justin Garrison이 AWS를 퇴사하며 대규모 이벤트(LSE) 증가와 향후 장애 예측 의견을 남긴 사례 언급
  • 경험과 암묵지가 조직 내에서 전수되지 않으면, 조직은 문제 해결력과 장애 예방 능력을 상실하게 됨

인력 유출 근거

  • 최근 수년간 27,000명 이상의 Amazon 인력 감축이 이루어졌으며, 이 중 AWS 엔지니어도 상당수 포함됨
  • 내부 문서에 따르면 Amazon은 69~81%의 이직자가 ‘떠나서는 안 될’ 아까운 인재였던 것으로 알려짐
  • 네트워크상에는 주요 리더 및 고경력자들이 복귀 명령(Return to Office)에 따른 불만을 토로하는 사례 다수 존재
  • 경험 많은 핵심 인력이 지속적으로 이탈하면서 전문성 상실 및 대응 역량 약화 문제가 심화되고 있음

결론 및 향후 전망

  • 이번 사태는 조직 내 핵심 인력이 빠져나갔을 때 발생하는 전환점적 사건
  • 지식과 경험이 부족한 신생 인력 중심의 조직은 장애 방지 또는 조기 복구가 어려워질 수밖에 없음
  • AWS의 강점이었던 수평적 전문성, 중복 인력 체계가 붕괴하면, 기초적인 문제도 반복적으로 발생할 위험이 높아짐
  • 이번 장애는 “고립된 한 번의 사고”로 규정될 가능성이 높으나, 향후 인력 부족에 기인한 장애가 점진적으로 증가할 소지가 있음
  • 다음 장애가 언제, 어떤 팀에서, 어떤 미묘한 조건에서 발생할지는 예측 불가이지만, 경험의 공백이 근본적 위험 요인으로 작용함

Read Entire Article