잇따른 장애 후, Amazon이 AI 지원 코드 변경에 시니어 엔지니어 승인 의무화

2 weeks ago 12

  • 최근 AI 코딩 도구 사용과 관련된 서비스 장애가 잇따르자, 아마존이 모든 AI 지원 코드 변경에 대해 시니어 엔지니어의 사전 승인 절차를 도입
  • 내부 노트에 따르면 장애의 원인으로 "베스트 프랙티스와 안전장치가 아직 완전히 확립되지 않은 새로운 GenAI 활용" 이 지목됨
  • 이번 달 Amazon 웹사이트와 쇼핑 앱이 약 6시간 동안 다운되어 고객이 거래 완료, 계정 정보 확인, 가격 조회 등을 할 수 없었으며, 원인은 잘못된 소프트웨어 코드 배포
  • AWS에서도 AI 코딩 도우미 Kiro가 환경을 삭제·재생성하는 바람에 13시간 장애가 발생하는 등, 최소 두 건의 AI 관련 사고가 보고됨
  • AI 코딩 도구의 프로덕션 적용에 따른 운영 리스크가 현실화되며, 주니어·미드레벨 엔지니어의 AI 지원 변경 사항에 시니어 엔지니어 서명을 의무화하는 즉각적 조치 시행

아마존의 내부 회의와 대응 조치

  • 아마존 전자상거래 부문은 최근 발생한 연속적인 서비스 중단을 분석하기 위해 대규모 엔지니어 회의를 소집함
    • 회의 안건에는 AI 코딩 도구 사용과 관련된 사고가 포함됨
    • 내부 브리핑 노트에는 최근 몇 달간 “고위험도(high blast radius)” 사고가 늘었으며, “Gen-AI 지원 변경”이 주요 요인으로 언급됨
  • 문서에는 “아직 완전히 확립되지 않은 새로운 GenAI 사용 사례”가 기여 요인으로 명시됨
  • 시니어 부사장 Dave Treadwell은 이메일에서 “최근 사이트와 인프라의 가용성이 좋지 않았다”고 언급함

AI 관련 장애 사례

  • 아마존 웹사이트와 쇼핑 앱은 이달 초 약 6시간 동안 중단되었으며, 원인은 “잘못된 소프트웨어 코드 배포”로 확인됨
    • 이로 인해 고객들은 거래 완료, 계정 정보 확인, 상품 가격 조회 등을 할 수 없었음
  • AWS에서도 AI 코딩 어시스턴트 Kiro 사용 중 문제가 발생함
    • 12월 중순, Kiro가 환경을 “삭제 후 재생성”하도록 결정하면서 13시간 동안 비용 계산기 서비스가 중단
    • 아마존은 이 사건을 “중국 본토 일부 지역의 단일 서비스에 국한된 매우 제한적 사건”으로 설명함
    • 두 번째 사고는 “고객 대상 AWS 서비스에는 영향이 없었다”고 Amazon 측이 추가 설명

새로운 승인 절차와 운영 개선

  • Treadwell은 주간 회의 ‘This Week in Stores Tech (TWiST)’ 를 통해 문제 원인과 단기 개선 조치를 논의할 예정임
    • 기존에는 선택 참석이었던 회의를 전 직원 참석 권장으로 변경함
  • 앞으로 주니어 및 미드레벨 엔지니어가 수행하는 AI 지원 코드 변경은 시니어 엔지니어의 서명 승인을 받아야 함
  • 아마존은 이번 검토를 “정상적인 비즈니스 과정의 일부”로 규정하며, 지속적인 개선을 목표로 함

인력 감축과 장애 증가 논란

  • Financial Times는 일부 엔지니어들이 인력 감축 이후 ‘Sev2’급 사고(신속 대응이 필요한 중간 수준 장애) 가 늘었다고 언급했다고 보도함
  • 아마존은 최근 몇 년간 여러 차례 구조조정을 단행했으며, 2026년 1월에만 16,000개의 기업직을 감축
  • 그러나 회사는 인력 감축이 장애 증가의 원인이라는 주장에 동의하지 않음

향후 방향

  • 아마존은 웹사이트 가용성 검토와 운영 성과 점검을 정례화하고 있음
  • 회사는 AI 코딩 도구의 안전한 활용과 장애 방지 체계 강화를 병행 추진 중임
  • 이번 조치는 AI 도입 확산 속에서 인적 검증 절차의 중요성을 다시 부각시키는 사례로 평가됨

Read Entire Article