Azure 신뢰를 무너뜨린 결정들 – 전직 Azure Core 엔지니어의 기록
3 hours ago
1
-
Microsoft Azure Core 내부의 비현실적 의사결정이 누적되며 기술적 혼란과 신뢰 붕괴로 이어진 과정을 전직 엔지니어가 상세히 서술
- 하드웨어 제약을 무시한 Windows 기능 포팅 계획과 173개의 관리 에이전트 난립이 대표적 문제로 지적됨
- 이러한 복잡한 구조가 OpenAI, Anthropic, 정부 클라우드 등 핵심 워크로드를 지탱하고 있어 단일 오류가 전 세계적 장애로 확산될 위험 존재
- 경영진의 무응답 속에 OpenAI와의 관계 악화, 미국 정부의 신뢰 상실, 기능 출시 지연 등 후속 사태가 발생
- 결과적으로 1조 달러 규모의 시장가치 증발로 이어졌으며, 클라우드 인프라 운영에서 기술적 현실 인식과 단순성 유지의 중요성이 강조됨
Azure 신뢰 붕괴의 내부 기록
-
Microsoft Azure Core 팀 내부의 비현실적 결정 과정과 그로 인한 기술적·조직적 혼란을 다룬 전직 엔지니어의 회고
-
Overlake R&D 팀에 합류한 첫날부터, 하드웨어 제약을 무시한 Windows 기능 포팅 계획이 논의되는 장면을 목격
-
173개의 관리 에이전트가 존재하지만, 그 기능과 필요성을 아는 사람이 없을 정도로 복잡성과 불투명성이 심각
- 이러한 구조가 OpenAI, Anthropic, 정부 클라우드 등 핵심 워크로드를 지탱하고 있어 단일 오류가 전 세계적 장애로 이어질 위험
- 결과적으로 OpenAI 신뢰 상실, 미 국방부의 공개적 불신, 시장가치 1조 달러 증발로 이어졌다고 서술
Azure Core 입사와 초기 상황
- 2023년 5월 1일, Azure Boost 오프로딩 카드와 네트워크 가속기를 담당하는 Overlake R&D 팀에 시니어 엔지니어로 합류
- 이전에는 Windows 팀과 Core OS 팀에서 커널 개선 및 컨테이너 플랫폼 개발에 참여, Docker·AKS·App Services·Windows Sandbox 등 핵심 기술에 기여
- Overlake 카드 초기 설계(2020~2021)에도 참여해 호스트 OS와 가속기 카드 간 통신 프로토콜을 제안한 경험 보유
- Azure 플랫폼을 10년 이상 직접 운영·개발해온 전문가로 복귀
첫 회의에서 목격한 비현실적 계획
- 입사 첫날, 팀의 월간 계획 회의에서 Windows 구성요소를 Overlake 카드로 포팅하려는 계획을 확인
- Overlake 카드의 RAM 용량과 전력 예산이 극도로 제한적임에도, 팀은 Windows 기능을 이식하려는 시도를 논의
- 하드웨어 사양상 불가능한 계획이었으며, “주니어 개발자 몇 명에게 맡겨보자”는 발언까지 나옴
- 조직은 Windows를 Linux로 포팅해 VM 관리 에이전트를 유지하려는 방향을 진지하게 검토 중이었음
- 저자는 이를 “현실과 동떨어진 계획”으로 인식하고, 조직 전체가 불가능한 목표를 향한 행진에 들어섰다고 판단
기술적 한계와 구조적 문제
- 당시 스택은 400W Xeon CPU에서 수십 개 VM만 처리 가능, 하이퍼바이저의 1,024 VM 한계와 큰 차이
- 과도한 리소스 사용으로 고객 VM에서 지터(jitter) 가 발생하는 등 성능 저하 문제 존재
- 이러한 비효율적 스택을 작은 ARM SoC로 이식해 확장하려는 계획은 기술적으로 불가능
- 저자는 “새 기술을 배우는 것보다, 조직 전체를 현실로 되돌리는 것이 더 시급한 과제”였다고 표현
Azure Linux 및 Overlake 관련 내부 대화
- Linux System Group 책임자와의 90분 대화에서, Overlake 카드용으로 173개의 에이전트를 포팅 후보로 지정했음을 확인
- 조사 결과, Microsoft 내부 누구도 이 173개 에이전트의 역할·상호작용·존재 이유를 명확히 설명하지 못함
- Azure의 핵심은 VM·네트워킹·스토리지이며, 나머지 서비스는 이 위에 구축됨에도 불필요한 복잡성이 누적
- 이러한 통제 불가능한 구성요소 집합이 OpenAI·Anthropic·정부 클라우드 등 주요 워크로드를 관리하고 있음
신뢰 상실과 후속 사태
- 이 복잡한 구조는 국가 안보 및 비즈니스 연속성에 심각한 위험을 초래할 수 있는 상태
- 이후 CEO, 이사회, Cloud+AI 부문 EVP에게 보낸 서한은 모두 무응답으로 끝남
- 결과적으로 OpenAI와의 관계 악화, 미국 정부의 신뢰 붕괴(국방장관의 공개 발언), 엔지니어링 낭비와 Rust 전환 명령, 기능 출시 지연 등이 발생
- 저자는 이를 “1조 달러의 시장가치가 증발한 사건”으로 표현하며, Azure를 사용하는 기업들에게 생산 환경 의존의 위험성을 경고
결론
- Azure 내부의 기술적 복잡성, 관리 부실, 비현실적 의사결정이 누적되어 신뢰를 잃은 과정이 드러남
- 핵심 인프라를 담당하는 조직이 현실 감각을 상실한 채 구조적 실패로 향한 행진을 이어간 사례
- 클라우드 인프라의 안정성과 단순성, 그리고 조직 내 기술적 판단력 유지의 중요성이 강조됨
-
Homepage
-
개발자
- Azure 신뢰를 무너뜨린 결정들 – 전직 Azure Core 엔지니어의 기록