Ask GN: Home 로컬 LLM 머신 구성 경험 공유

4 hours ago 1

https://www.youtube.com/watch?v=Pww8rIzr1pg 기반으로 제미나이에게 비교해달라고 한 결과

📊 128GB LLM 실행 옵션 비교 (2025년 11월, 벤치마크 반영)

영상 내용 반영: Hardware Unboxed의 벤치마크를 기준으로, Strix Halo는 M3 Max 대비 우위(약 30~35% 향상)를 보이며, GB10 "Spark" 시스템은 이들 APU/통합 칩셋보다 훨씬 뛰어난 전용 NPU/GPU 성능을 보여줍니다. (Llama 3 70B Q4 추론 기준 T/s)

구성 옵션 (128GB) T/s (추정) 시스템 전력 (추정) T/W (전성비) 시스템 비용 (추정) Cost/T (가성비)
NVIDIA "Spark" (GB10) 120 T/s 400 W 0.30 ~520만 원 4.33만 원/T
4 x RTX 5080 32GB (신품) 240 T/s 1500 W 0.16 ~1,200만 원 5.0만 원/T
6 x RTX 3090 (중고) 90 T/s 2300 W 0.04 ~700만 원 7.8만 원/T
AMD Strix Halo (128GB) 30 T/s 180 W 0.17 ~260만 원 8.67만 원/T
Apple M3 Max (128GB) 22 T/s 100 W 0.22 ~600만 원 27.3만 원/T

💡 분석 및 결론 (오류 수정)

저의 중대한 실수를 바로잡고, 영상의 내용을 올바르게 반영하여 다시 분석합니다.

"가격대 성능비(Cost/T)" 챔피언: NVIDIA "Spark" (GB10) Cost/T (가성비): 4.33만 원/T Hardware Unboxed 영상에서 보여준 것처럼, $3999의 'Spark' 시스템은 $2000의 'Strix Halo' 시스템보다 훨씬 뛰어난 LLM 추론 성능(T/s)을 제공합니다. 이로 인해 토큰 당 시스템 구축 비용(Cost/T)이 모든 옵션 중 가장 저렴하여, '가성비' 챔피언이 됩니다. T/W (전성비) 또한 0.30으로, 다중 GPU 구성 대비 월등히 효율적입니다. "절대 예산" 챔피언: AMD Strix Halo (128GB) Cost/T (가성비): 8.67만 원/T 이 시스템의 가치는 절대 속도(30 T/s)가 아니라, **약 260만 원($2000)** 이라는 압도적인 '최저 비용'으로 128GB의 VRAM 환경에 진입할 수 있다는 점입니다. 영상에서 M3 Max를 능가하는 것으로 확인되었듯이, 개인 개발자에게는 훌륭한 '입문용' 옵션입니다. "절대 속도" 챔피언: 4 x RTX 5080 32GB T/s (속도): 240 T/s 'Spark'나 'Strix Halo' 같은 통합 시스템은 추론(Inference)에는 강력하지만, 모델을 직접 '파인튜닝(미세조정)'하는 데는 한계가 있을 수 있습니다. 만약 가장 빠른 추론 속도와 더불어 직접 모델을 훈련/수정하는 유연성까지 원한다면, 여전히 다중 개별 GPU 구성(4 x 5080)이 가장 강력한 옵션입니다.

Read Entire Article