- 라즈베리파이 Compute Blade 10개와 CM5 모듈을 이용해 약 3천 달러 규모의 AI 클러스터를 구축했지만, 성능과 가성비 면에서 기대에 미치지 못했음
- HPC 벤치마크에서는 단일 Pi 대비 10배 성능 향상(325 Gflops) 을 얻었으나, Framework 데스크톱 클러스터보다 4배 느린 결과를 보여줌
- AI 테스트에서는 GPU 가속이 지원되지 않아 CPU 기반 추론에 의존했고, Llama 70B 모델 실행 시 토큰 생성 속도가 0.85 t/s 수준으로 매우 낮았음
- 다만, 저전력·저소음·고밀도라는 장점으로 CI 작업, 보안이 중요한 엣지 배포, Tor 릴레이 노드 같은 특수한 용도에는 의미가 있을 수 있음
- 전체적으로는 학습·실험 목적에는 재미가 있지만, 일반적인 AI/HPC 활용에는 적합하지 않음을 강조하며, 블레이드 서버의 한계를 드러낸 사례임
서론 및 클러스터 개요
- 2년 전인 2023년 4월에 10개의 Compute Blade를 주문했으며, 최근에야 모두 도착하여 클러스터를 완성함
- 그 사이에 Raspberry Pi가 CM4에서 CM5로 업그레이드되었기 때문에 16GB CM5 Lite 모듈 10개를 추가 주문, 총 160GB의 메모리 구성을 완성함
- 총 비용은 3,000달러(배송비 포함) 로 개인이 만든 가장 큰 Pi 클러스터였음
- Pi 기반 블레이드 컴퓨터로는 Xerxes Pi도 있지만, 출시 및 배송 지연 가능성이 크고, 이에 대해서도 호기심으로 후원을 했음
-
Pi 클러스터가 과연 여전히 가치 있는가가 궁금했고, 성능·밀도·효율을 Framework 데스크톱 클러스터와 비교하며 투자 가치가 있는지 검증하려 했음
클러스터 구축 및 반복적인 작업
- 여러 차례 SSD 호환성 문제와 발열 문제로 클러스터를 세 번이나 재조립
- 1차 재조립: 다양한 NVMe SSD를 사용했으나 호환성 및 신뢰성 문제 발생 하여 Patriot P300 SSD로 전량 교체 후 안정성 개선
- 2차 재조립: 발열로 인한 쓰로틀링 발생하여 히트싱크를 단단히 고정함으로써 열 관리 문제 해결
HPC(High Performance Computing) 벤치마크 결과
-
High Performance Linpack(Top500) 벤치마크로 슈퍼컴퓨터 성능을 측정
- 히트싱크 장착 이전에는 275 Gflops 성능, 이후에는 최대 325 Gflops로 상승
- 이 수치는 내장 8GB CM5 단일 노드 대비 10배 성능이며, 전력소비는 130W
- 그러나 8,000달러 Framework Desktop 4-노드 클러스터와 비교하면 Pi 클러스터는 4배 느림
- 에너지 효율성(Gflops/W)에서는 근소한 우위가 있지만, 가격 대비 성능에서는 Framework 클러스터에 못 미침
- 대규모 HPC에 적합한 솔루션은 아님
AI 활용성 테스트와 한계
- 160GB의 메모리로 AI 클러스터를 기대했으나, Pi 5의 iGPU에서는 Vulkan을 통한 가속이 불가함
- AI 추론은 CPU에 한정되며, Arm Cortex A76의 한계로 인해 처리 성능이 크게 저하됨
-
Llama 3.2:3B 모델의 경우, 한 노드에서 초당 6토큰 처리에 그침(상대적으로 느림)
- 노드 전체를 활용해 대용량 모델(Llama 3.3:70B)을 분산 처리해도 0.28~0.85 토큰/초에 머무름(Framework 클러스터보다 최소 5~25배 느림)
- Exo, distributed-llama와 같은 다른 분산 AI 도구도 실사용에는 불안정하거나 성능이 부족함
- 전체적으로 AI 워크로드에는 부적합
결론 및 현실적인 용도 제안
-
Pi 블레이드 클러스터는 성능/가성비 면에서 경쟁력이 떨어지는 선택지이며, 학습·실험·취미 목적 외에는 추천하기 어려움
- 반면, 관리 용이성, 저소음, 컴팩트함, 노드 밀도 및 분리성에서는 장점이 있음
- 실질적으로는 CI(지속적 통합) 작업 또는 고보안·엣지 컴퓨팅처럼 격리된 환경을 요구하는 환경에서 제한적으로 고려 가능
- Unredacted Labs에서는 Tor exit relay 등 대량 노드 환경에서 효율성과 노드 밀도를 극대화하기 위해 사용중
- 그러나 일반적인 대부분의 사용자는 비슷한 비용에서 더 높은 성능과 효율성의 다른 대안이 존재함
- 제조사 Gateworks 또한 산업용 GBlade를 한때 판매했지만, 시장적 성공은 거두지 못했고 단종됨
- 유지 관리와 실용성 측면에서 대형 클러스터 운영에 비해 단순하지만, 특별한 이유가 없는 한 추천하기 어려운 환경임
사용 부품 목록
- (작성자는 별도로 사용한 부품 리스트를 소개했지만, 비슷한 구성을 그대로 복제하는 것은 권하지 않는다고 언급함)