파드는 Running 상태인데, 사용자는 502 에러를 본다. 어떻게 해야 할까? kubelet은 정상인데, 새로운 파드가 스케줄링되지 않는다. 왜일까? Helm 업그레이드가 PVC를 망가뜨렸다. 롤백 전략은? OOMKilled 된 파드의 로그가 없다. 어떻게 복구할까? Pending 상태의 파드가 10개인데, 유휴 노드가 5개 있다. 설명해보라. 낮은 RTO를 목표로 한 크로스 리전 K8s HA 설계를 어떻게 할 것인가? HPA가 스케일링되지 않는다. Prometheus는 CPU 80%를 보여준다. RCA 경로는? eBPF가 클러스터에서 패킷 드롭을 보여준다. 다음 단계는? 노드에서 systemd 서비스가 조용히 실패했다. 파드 성능이 저하된다. 디버깅 방법은? 개발팀이 셀프서비스 네임스페이스를 원한다. RBAC + Quota 계획은 무엇인가?
Healthy ≠ Ready. 이제는 readiness probe, DNS, 애플리케이션 로그를 확인할 차례다.
Taint, 노드 압박 상태, CNI 준비 상태를 논리적으로 따져볼 수 있어야 한다.
힌트: helm rollback이 항상 안전한 탈출구는 아니다.
포렌식 디버깅 기본, 사이드카, 중앙 로그 수집, 임시 볼륨을 고려해야 한다.
Node Affinity? 리소스 요청? 멈춰 있는 init 컨테이너?
멀티 리전 DNS, 스토리지 동기화, 상태 기반 페일오버, 그리고 가시성을 논해야 한다.
Metrics Server? API throttling? Cooldown 설정?
CNI 플러그인, 커널 버전, 네트워크 정책을 추적할 때다.
journald 로그와 파드 동작을 연관 지어 분석할 수 있는가?