Google Cloud 장애 보고서 – 2025-06-13

8 hours ago 1

2025년 6월 12일, Google Cloud와 Google Workspace 서비스에서 외부 API 요청 중 503 오류가 전 세계적으로 증가함
오류 원인은 Service Control 시스템의 코드 변경과 정책 데이터에 빈 필드가 포함된 잘못된 정책 반영임
핵심 바이너리의 에러 처리 미흡과 기능 플래그 미적용 등이 문제 확산을 키웠음
복구는 2~3시간이 소요되었으며, us-central-1 지역은 인프라 과부하로 더 긴 복구 시간 발생함
Google은 아키텍처 분리, 에러 처리 개선, 데이터 검증 강화 등 재발 방지 대책을 발표함

전체 장애 개요

Google Cloud 및 Google Workspace 서비스 장애 요약

2025년 6월 12일 오전 10시 49분(PDT)부터, Google Cloud, Google Workspace, Google Security Operations를 포함하는 여러 서비스에서 외부 API 요청에 대해 503 오류가 급증하는 현상 발생함
고객 서비스와 신뢰에 심각한 영향을 주었음에 대해 Google 측은 깊은 사과 의사를 밝힘
Google API 관리 및 제어 플레인은 각 요청의 정책 및 쿼터 체크를 담당하며, 핵심 체크 시스템은 ‘Service Control’이라는 바이너리로 동작함

장애 원인 분석

변화된 시스템 구조 – Service Control

2025년 5월 29일, Service Control에 쿼터 정책 검사를 강화하는 신규 기능이 추가됨
지역별로 단계적 출시를 진행했으나, 문제의 코드는 정책이 실제로 반영되었을 때만 동작하며, 기존에는 트리거되지 않아 사전 테스트가 미흡했음
해당 신기능 경로에 적절한 에러 처리와 기능 플래그가 부재하여, null 포인터 상황에서 바이너리가 연쇄적으로 크래시됨

장애 발생 경위

2025년 6월 12일 오전 10시 45분(PDT), 정책 변경이 Regional Spanner 테이블에 삽입됨
이 정책 데이터에는 의도하지 않은 빈 필드(Blank Field) 가 포함되어 있었으며, 이것이 전 세계적으로 거의 실시간 복제됨
Service Control이 이 정책을 처리하면서 null 포인터에 의한 크래시가 발생, 각 지역 인스턴스가 전역적으로 Crash Loop에 빠짐
2분 만에 SRE팀이 인지를 시작했고, 10분 내에 원인을 파악 후 임시로 바이너리 경로를 차단(red-button), 40분 만에 대부분의 지역은 복구됨

추가 복구 이슈

일부 대형 지역(us-central-1)은 Service Control 태스크 재시작 시 herd effect로 인프라(Spanner 테이블)가 과부하됨
Service Control이 무작위 지수적 백오프를 적용하지 않아 인프라 부담 가중됨
해당 지역은 2시간 40분까지 복구 지연, 트래픽 우회 등으로 영향 최소화했으며, 전체적으로 서비스 복구 완료됨

고객 영향 및 장애 범위

고객은 API 및 사용자 인터페이스 접속 장애 발생, 스트리밍 및 IaaS 리소스에는 영향 없음
지연 및 백로그 영향은 최대 1시간 이상 일부 서비스에서 지속
장애 영향을 받은 Google Cloud와 Google Workspace 제품 리스트가 광범위하게 제시됨
- 예: IAM, Cloud Build, Cloud Storage, BigQuery, AppSheet, Gmail, Google Drive 등 수십여 개 서비스

향후 개선 방안

서비스 아키텍처를 모듈화하여 각 기능 분리 및 장애 발생시 개방형(fail open) 처리 도입
글로벌 데이터 복제 단계적 전파 및 실질적인 검증 과정 강화
모든 주요 바이너리 변경 시 기능 플래그화 및 기본 비활성 처리 적용 정책 개편
정적 분석과 테스트 개선을 통해 에러 감지 및 장애 시 fail open 가능하게 설계 검토
무작위 지수적 백오프 정책 및 모니터링/커뮤니케이션 신뢰도 강화 예정
장애 상황에서도 고객에게 신속하게 모니터링 및 정보 전달이 가능하도록 인프라 이중화와 자동화 커뮤니케이션 보완

장애 공지 및 커뮤니케이션

사고 후 1시간 이내에 Cloud Service Health에 공지하였으나, 모니터링 인프라 자체도 장애 발생
일부 고객은 Google Cloud 기반의 모니터링 시스템 자체가 정상 작동하지 않아 장애 신호 및 영향 파악 곤란함
Google은 향후 모니터링 및 대고객 커뮤니케이션 인프라 강화를 약속함

주요 장애 타임라인 (미니 리포트 요약)

장애 시작: 2025년 6월 12일 10:49 (PDT)
대부분 지역 복구: 2025년 6월 12일 12:48 (PDT)
장애 종료: 2025년 6월 12일 13:49 (PDT)
총 소요: 약 3시간
영향 지역: 전세계

사후 대책 요약

API 관리 플랫폼의 데이터 오류나 손상 시 실패 방지 장치 마련 예정
글로벌 메타데이터 전파전 검증·테스트·모니터링 강화
유효하지 않은 데이터에 대한 시스템 에러 처리 및 종합 테스트 확대

영향 서비스 리스트 (발췌)

Google Cloud 주요 서비스

Identity and Access Management, Cloud Build, Google Cloud Storage, Cloud Monitoring, BigQuery, Vertex Gemini API, Cloud Firestore, Looker, Cloud Run, Compute Engine 등

Google Workspace 주요 서비스

AppSheet, Gmail, Google Drive, Google Meet, Docs, Chat, Calendar 등

결론

이번 장애는 정책/쿼터 관리 시스템 구조, 데이터 무결성 검증 부족, 에러 처리 체계 부재가 복합적으로 작용한 문제임
Google은 아키텍처 레벨에서의 개선 및 장애 대응력 강화를 약속함

Read Entire Article