Tinybox – 120B 파라미터를 지원하는 오프라인 AI 머신

5 days ago 6

  • tinygrad는 단순성과 성능을 결합한 신경망 프레임워크로, 최소 연산 구조로 복잡한 모델을 구현
  • 이를 기반으로 한 tinybox는 딥러닝 학습과 추론을 위한 고성능 오프라인 AI 컴퓨터로, red·green·exa 세 가지 모델로 제공됨
  • 상위 모델 green v2 blackwell은 4개의 RTX PRO 6000 GPU로 3086 TFLOPS 성능을 내며, $65,000에 즉시 배송 가능함
  • 최상위 exabox는 약 1 EXAFLOP 성능을 목표로 2027년 출시 예정이며, 약 1천만 달러 가격대임
  • 제작사인 tiny corp는 petaflop 상용화와 모두를 위한 AI 실현을 목표로 함

tinygrad 개요

  • tinygrad는 단순성과 성능을 중시하는 신경망 프레임워크로, 빠르게 성장 중인 프로젝트임
  • 복잡한 네트워크를 단 3가지 OpType으로 구성함: ElementwiseOps, ReduceOps, MovementOps
    • ElementwiseOps는 1~3개의 텐서에 대해 원소 단위 연산을 수행하며, SQRT, LOG2, ADD, MUL, WHERE 등이 포함됨
    • ReduceOps는 하나의 텐서를 입력받아 더 작은 텐서를 반환하며, SUM, MAX 등이 있음
    • MovementOps는 데이터를 복사 없이 이동시키는 가상 연산으로, ShapeTracker를 이용해 RESHAPE, PERMUTE, EXPAND 등을 수행함
  • CONV나 MATMUL 연산 구현은 코드 내에서 직접 확인 가능함

tinybox 제품 라인업

  • tinybox는 딥러닝용 고성능 컴퓨터로, red, green, exa 세 가지 모델로 구성됨
  • 각 모델의 주요 사양은 다음과 같음
    • red v2

      • GPU: 4x 9070XT
      • FP16(FP32 acc) 성능: 778 TFLOPS
      • GPU RAM: 64GB, 대역폭 2560 GB/s
      • CPU: 32코어 AMD EPYC
      • 시스템 RAM: 128GB, 대역폭 204.8 GB/s
      • 디스크: 2TB NVMe, 읽기 속도 7.3 GB/s
      • 네트워킹: 2x 1GbE + OCP3.0
      • 전원: 1600W
      • 소음: 50dB 미만
      • 가격: $12,000, 즉시 배송 가능
    • green v2 blackwell

      • GPU: 4x RTX PRO 6000 Blackwell
      • FP16(FP32 acc) 성능: 3086 TFLOPS
      • GPU RAM: 384GB, 대역폭 7168 GB/s
      • CPU: 32코어 AMD GENOA
      • 시스템 RAM: 192GB, 대역폭 460.8 GB/s
      • 디스크: 4TB RAID + 1TB 부팅용, 읽기 속도 59.3 GB/s
      • 네트워킹: 2x 10GbE + OCP3.0
      • 전원: 2x 1600W
      • 소음: 65dB (10m 거리 기준)
      • 가격: $65,000, 즉시 배송 가능
    • exabox

      • GPU: 720x RDNA5 AT0 XL
      • FP16(FP32 acc) 성능: 약 1 EXAFLOP
      • GPU RAM: 25,920GB, 대역폭 1244 TB/s
      • CPU: 120x 32코어 AMD GENOA
      • 시스템 RAM: 23,040GB, 대역폭 55.2 TB/s
      • 디스크: 480TB RAID, 읽기 속도 7.1 TB/s
      • 네트워킹: PCIe5 3.2 TB/s 확장 지원
      • 전원: 600kW
      • 크기: 20x8x8.5 ft, 무게 20,000 lbs
      • 출시 예정: 2027년, 예상가 약 $10M
      • 모든 모델은 Ubuntu 24.04 운영체제를 사용하며, 독립형 또는 랙 마운트형으로 설치 가능함
      • 제품 및 재고 업데이트는 메일링 리스트를 통해 제공됨

FAQ

  • tinybox 개요

    • 딥러닝용 고성능 컴퓨터로, 가격 대비 성능이 매우 높음

      • MLPerf Training 4.0 벤치마크에서 10배 비싼 시스템과 비교 테스트됨
      • 학습뿐 아니라 추론(inference) 도 수행 가능함
  • 주문 및 배송

    • 웹사이트에서 주문 가능하며, 결제 후 1주 이내 배송
    • 샌디에이고 현장 수령 또는 전 세계 배송 지원
  • 커스터마이징 및 결제

    • 가격과 품질 유지를 위해 커스터마이징 불가

      • 결제는 전신 송금(wire transfer) 만 가능
      • W-9 양식다운로드 링크에서 제공됨
  • tinygrad 사용처

    • openpilot에서 Snapdragon 845 GPU 기반 주행 모델 실행에 사용됨
    • Qualcomm SNPE를 대체하며, 더 빠르고 ONNX 로딩, 학습 지원, attention 기능을 제공함
  • 기능 및 성능

    • 추론 전용이 아니며, autodiff 기반의 forward/backward 패스 모두 지원
    • PyTorch와 유사한 API를 제공하지만 구조는 더 단순함
    • 알파 버전으로 안정성은 낮으나 최근에는 비교적 안정적임
    • PyTorch보다 2배 빠른 논문 재현이 가능해질 때 알파 단계를 종료할 예정임
    • 속도 향상 요인
      • 각 연산마다 맞춤형 커널 컴파일로 형태별 최적화
      • lazy tensor 구조로 연산을 적극적으로 fusion
      • 간결한 백엔드로 커널 최적화 시 전체 성능 향상
  • 개발 및 커뮤니티

    • 개발은 GitHubDiscord에서 진행 중
    • tinygrad 기여(PR) 는 채용 및 투자 참여의 주요 경로로 간주됨
    • tiny corp의 목표petaflop 상용화모두를 위한 AI 실현

Read Entire Article