Google Cloud 장애 보고서 – 2025-06-13

8 hours ago 1

  • 2025년 6월 12일, Google CloudGoogle Workspace 서비스에서 외부 API 요청 중 503 오류가 전 세계적으로 증가함
  • 오류 원인은 Service Control 시스템의 코드 변경과 정책 데이터에 빈 필드가 포함된 잘못된 정책 반영임
  • 핵심 바이너리의 에러 처리 미흡과 기능 플래그 미적용 등이 문제 확산을 키웠음
  • 복구는 2~3시간이 소요되었으며, us-central-1 지역은 인프라 과부하로 더 긴 복구 시간 발생함
  • Google은 아키텍처 분리, 에러 처리 개선, 데이터 검증 강화 등 재발 방지 대책을 발표함

전체 장애 개요

Google Cloud 및 Google Workspace 서비스 장애 요약

  • 2025년 6월 12일 오전 10시 49분(PDT)부터, Google Cloud, Google Workspace, Google Security Operations를 포함하는 여러 서비스에서 외부 API 요청에 대해 503 오류가 급증하는 현상 발생함
  • 고객 서비스와 신뢰에 심각한 영향을 주었음에 대해 Google 측은 깊은 사과 의사를 밝힘
  • Google API 관리 및 제어 플레인은 각 요청의 정책 및 쿼터 체크를 담당하며, 핵심 체크 시스템은 ‘Service Control’이라는 바이너리로 동작함

장애 원인 분석

변화된 시스템 구조 – Service Control

  • 2025년 5월 29일, Service Control에 쿼터 정책 검사를 강화하는 신규 기능이 추가됨
  • 지역별로 단계적 출시를 진행했으나, 문제의 코드는 정책이 실제로 반영되었을 때만 동작하며, 기존에는 트리거되지 않아 사전 테스트가 미흡했음
  • 해당 신기능 경로에 적절한 에러 처리와 기능 플래그가 부재하여, null 포인터 상황에서 바이너리가 연쇄적으로 크래시됨

장애 발생 경위

  • 2025년 6월 12일 오전 10시 45분(PDT), 정책 변경이 Regional Spanner 테이블에 삽입됨
  • 이 정책 데이터에는 의도하지 않은 빈 필드(Blank Field) 가 포함되어 있었으며, 이것이 전 세계적으로 거의 실시간 복제됨
  • Service Control이 이 정책을 처리하면서 null 포인터에 의한 크래시가 발생, 각 지역 인스턴스가 전역적으로 Crash Loop에 빠짐
  • 2분 만에 SRE팀이 인지를 시작했고, 10분 내에 원인을 파악 후 임시로 바이너리 경로를 차단(red-button), 40분 만에 대부분의 지역은 복구됨

추가 복구 이슈

  • 일부 대형 지역(us-central-1)은 Service Control 태스크 재시작 시 herd effect로 인프라(Spanner 테이블)가 과부하됨
  • Service Control이 무작위 지수적 백오프를 적용하지 않아 인프라 부담 가중됨
  • 해당 지역은 2시간 40분까지 복구 지연, 트래픽 우회 등으로 영향 최소화했으며, 전체적으로 서비스 복구 완료됨

고객 영향 및 장애 범위

  • 고객은 API 및 사용자 인터페이스 접속 장애 발생, 스트리밍 및 IaaS 리소스에는 영향 없음
  • 지연 및 백로그 영향은 최대 1시간 이상 일부 서비스에서 지속
  • 장애 영향을 받은 Google Cloud와 Google Workspace 제품 리스트가 광범위하게 제시됨
    • 예: IAM, Cloud Build, Cloud Storage, BigQuery, AppSheet, Gmail, Google Drive 등 수십여 개 서비스

향후 개선 방안

  • 서비스 아키텍처를 모듈화하여 각 기능 분리 및 장애 발생시 개방형(fail open) 처리 도입
  • 글로벌 데이터 복제 단계적 전파 및 실질적인 검증 과정 강화
  • 모든 주요 바이너리 변경 시 기능 플래그화 및 기본 비활성 처리 적용 정책 개편
  • 정적 분석과 테스트 개선을 통해 에러 감지 및 장애 시 fail open 가능하게 설계 검토
  • 무작위 지수적 백오프 정책 및 모니터링/커뮤니케이션 신뢰도 강화 예정
  • 장애 상황에서도 고객에게 신속하게 모니터링 및 정보 전달이 가능하도록 인프라 이중화와 자동화 커뮤니케이션 보완

장애 공지 및 커뮤니케이션

  • 사고 후 1시간 이내에 Cloud Service Health에 공지하였으나, 모니터링 인프라 자체도 장애 발생
  • 일부 고객은 Google Cloud 기반의 모니터링 시스템 자체가 정상 작동하지 않아 장애 신호 및 영향 파악 곤란함
  • Google은 향후 모니터링 및 대고객 커뮤니케이션 인프라 강화를 약속함

주요 장애 타임라인 (미니 리포트 요약)

  • 장애 시작: 2025년 6월 12일 10:49 (PDT)
  • 대부분 지역 복구: 2025년 6월 12일 12:48 (PDT)
  • 장애 종료: 2025년 6월 12일 13:49 (PDT)
  • 총 소요: 약 3시간
  • 영향 지역: 전세계

사후 대책 요약

  • API 관리 플랫폼의 데이터 오류나 손상 시 실패 방지 장치 마련 예정
  • 글로벌 메타데이터 전파전 검증·테스트·모니터링 강화
  • 유효하지 않은 데이터에 대한 시스템 에러 처리 및 종합 테스트 확대

영향 서비스 리스트 (발췌)

Google Cloud 주요 서비스

  • Identity and Access Management, Cloud Build, Google Cloud Storage, Cloud Monitoring, BigQuery, Vertex Gemini API, Cloud Firestore, Looker, Cloud Run, Compute Engine 등

Google Workspace 주요 서비스

  • AppSheet, Gmail, Google Drive, Google Meet, Docs, Chat, Calendar 등

결론

  • 이번 장애는 정책/쿼터 관리 시스템 구조, 데이터 무결성 검증 부족, 에러 처리 체계 부재가 복합적으로 작용한 문제임
  • Google은 아키텍처 레벨에서의 개선 및 장애 대응력 강화를 약속함

Read Entire Article