- 알리바바 클라우드가 개발한 Aegaeon 풀링 시스템은 GPU 활용 효율을 9배 높여, 동일한 LLM 서비스에 필요한 엔비디아 GPU 수를 82% 줄였음
- 이 시스템은 GPU를 모델별로 고정하지 않고 토큰 단위로 가상화하여 공유 풀에서 동적으로 스케줄링함으로써 여러 모델이 한 GPU를 동시에 사용하도록 지원함
-
72B 파라미터 규모의 다양한 LLM을 포함한 실서비스 테스트에서 GPU 수가 1,192개 → 213개로 감소함
-
H20 GPU 제한적 공급 환경에서도 안정적인 성능을 유지했으며, ServerlessLLM·MuxServe 대비 1.5~9배의 goodput 향상을 기록함
- 논문은 서울 SOSP 2025 학회 발표를 통해 공개되었으며, 향후 GPU 자원 부족에 직면한 글로벌 클라우드 기업들에 큰 관심을 불러올 것으로 예상됨
Aegaeon 풀링 시스템과 그 배경
- 알리바바 클라우드는 Aegaeon 풀링 시스템을 통해 자사 Model Studio 마켓플레이스에서 수 개월간 진행된 베타 테스트에서 Nvidia GPU 사용량을 82% 절감하는 성과를 발표함
- 이 결과는 서울에서 개최된 2025 ACM Symposium on Operating Systems(SOSP)에서 동료 심사를 거쳐 공개된 논문을 통해 소개됨
- 해당 기술은 중국 내 Nvidia H20과 같은 최신 GPU 공급이 제한적인 환경에서 클라우드 서비스 제공자가 기존 자원을 최대한 활용할 수 있게 하는 데 목적이 있음
Aegaeon: GPU 활용 효율을 극대화한 추론 전용 스케줄러
- Aegaeon은 모델 학습 효율을 높이는 시스템이 아닌, 추론 단계에서 GPU 자원을 극대화하기 위한 스케줄러임
- 기존 방식은 모델 1개당 GPU 1개를 고정하는 구조였으나, Aegaeon은 이를 토큰 단위로 분할해 여러 모델이 동시 사용하도록 설계됨
- GPU의 ‘goodput’(실효 처리량) 을 최대 9배까지 향상시키며, 불규칙한 LLM 요청 패턴에도 안정적 처리율을 달성함
테스트 결과 및 절감 효과
-
Peking University 및 Alibaba 인프라 부문 연구진(CTO 징런 저우 포함)이 참여한 다개월 베타 테스트를 통해 성능 입증
- 테스트 기간 동안 1,192개 GPU를 213개로 축소해 동일한 수준의 LLM 추론 워크로드를 유지함
- 최대 72B 파라미터 규모 모델을 포함한 다수의 LLM 동시 서비스 환경에서도 높은 효율을 보임
- 테스트는 미국 수출 통제 이후 중국 내 합법적으로 구매 가능한 H20 GPU 기반으로 수행됨
-
South China Morning Post 보도에 따르면 H20은 현재 중국 내 주요 대체 가속기로 사용 중임
기술적 구성: 두 가지 핵심 전략
-
1. 다중 모델 패킹(Multi-model packing): 한 GPU에 여러 모델을 동시에 배치해, 요청 간 유휴 자원을 최소화함
-
2. 토큰 단위 자동 확장(Token-level autoscaling): 요청 전체가 아닌 생성 중인 출력 토큰 수에 따라 실시간으로 연산량을 조정함
- 이를 통해 불필요한 GPU 예약을 제거하고, 처리량 대비 비용 효율을 극대화함
- 벤치마크 결과, ServerlessLLM·MuxServe 대비 1.5~9배 성능 향상을 달성함
네트워크 및 스택 통합
- 논문에는 사용된 네트워크 구조(eRDMA 기반) 세부 내용이 명시되지 않았으나,
- 알리바바는 자사 eRDMA(Elastic RDMA) 네트워크와 고집적 GPU 스택을 갖춘 것으로 알려져 있음
- 따라서 이번 결과는 고도로 최적화된 내부 인프라 통합 환경에 의존할 가능성이 있음
시사점
-
GPU 공급이 제한된 중국 시장에서 기존 칩 자원으로 최대 효율을 끌어내는 전략적 돌파구로 평가됨
- 이 접근은 향후 AWS, Google Cloud, Microsoft Azure 등 하이퍼스케일러에게도 추론 효율 개선을 위한 벤치마크 모델이 될 가능성이 높음
- GPU 하드웨어 자체의 한계를 넘어, 소프트웨어적 스케줄링·가상화 기술이 AI 인프라 경쟁력의 새로운 축으로 부상함