Tinybox – 120B 파라미터를 지원하는 오프라인 AI 머신

1 month ago 25

tinygrad는 단순성과 성능을 결합한 신경망 프레임워크로, 최소 연산 구조로 복잡한 모델을 구현
이를 기반으로 한 tinybox는 딥러닝 학습과 추론을 위한 고성능 오프라인 AI 컴퓨터로, red·green·exa 세 가지 모델로 제공됨
상위 모델 green v2 blackwell은 4개의 RTX PRO 6000 GPU로 3086 TFLOPS 성능을 내며, $65,000에 즉시 배송 가능함
최상위 exabox는 약 1 EXAFLOP 성능을 목표로 2027년 출시 예정이며, 약 1천만 달러 가격대임
제작사인 tiny corp는 petaflop 상용화와 모두를 위한 AI 실현을 목표로 함

tinygrad 개요

tinygrad는 단순성과 성능을 중시하는 신경망 프레임워크로, 빠르게 성장 중인 프로젝트임
복잡한 네트워크를 단 3가지 OpType으로 구성함: ElementwiseOps, ReduceOps, MovementOps
- ElementwiseOps는 1~3개의 텐서에 대해 원소 단위 연산을 수행하며, SQRT, LOG2, ADD, MUL, WHERE 등이 포함됨
- ReduceOps는 하나의 텐서를 입력받아 더 작은 텐서를 반환하며, SUM, MAX 등이 있음
- MovementOps는 데이터를 복사 없이 이동시키는 가상 연산으로, ShapeTracker를 이용해 RESHAPE, PERMUTE, EXPAND 등을 수행함
CONV나 MATMUL 연산 구현은 코드 내에서 직접 확인 가능함

tinybox 제품 라인업

tinybox는 딥러닝용 고성능 컴퓨터로, red, green, exa 세 가지 모델로 구성됨
각 모델의 주요 사양은 다음과 같음
- red v2
  - GPU: 4x 9070XT
  - FP16(FP32 acc) 성능: 778 TFLOPS
  - GPU RAM: 64GB, 대역폭 2560 GB/s
  - CPU: 32코어 AMD EPYC
  - 시스템 RAM: 128GB, 대역폭 204.8 GB/s
  - 디스크: 2TB NVMe, 읽기 속도 7.3 GB/s
  - 네트워킹: 2x 1GbE + OCP3.0
  - 전원: 1600W
  - 소음: 50dB 미만
  - 가격: $12,000, 즉시 배송 가능
- green v2 blackwell
  - GPU: 4x RTX PRO 6000 Blackwell
  - FP16(FP32 acc) 성능: 3086 TFLOPS
  - GPU RAM: 384GB, 대역폭 7168 GB/s
  - CPU: 32코어 AMD GENOA
  - 시스템 RAM: 192GB, 대역폭 460.8 GB/s
  - 디스크: 4TB RAID + 1TB 부팅용, 읽기 속도 59.3 GB/s
  - 네트워킹: 2x 10GbE + OCP3.0
  - 전원: 2x 1600W
  - 소음: 65dB (10m 거리 기준)
  - 가격: $65,000, 즉시 배송 가능
- exabox
  - GPU: 720x RDNA5 AT0 XL
  - FP16(FP32 acc) 성능: 약 1 EXAFLOP
  - GPU RAM: 25,920GB, 대역폭 1244 TB/s
  - CPU: 120x 32코어 AMD GENOA
  - 시스템 RAM: 23,040GB, 대역폭 55.2 TB/s
  - 디스크: 480TB RAID, 읽기 속도 7.1 TB/s
  - 네트워킹: PCIe5 3.2 TB/s 확장 지원
  - 전원: 600kW
  - 크기: 20x8x8.5 ft, 무게 20,000 lbs
  - 출시 예정: 2027년, 예상가 약 $10M
  - 모든 모델은 Ubuntu 24.04 운영체제를 사용하며, 독립형 또는 랙 마운트형으로 설치 가능함
  - 제품 및 재고 업데이트는 메일링 리스트를 통해 제공됨

FAQ

tinybox 개요
- 딥러닝용 고성능 컴퓨터로, 가격 대비 성능이 매우 높음
  - MLPerf Training 4.0 벤치마크에서 10배 비싼 시스템과 비교 테스트됨
  - 학습뿐 아니라 추론(inference) 도 수행 가능함
주문 및 배송
- 웹사이트에서 주문 가능하며, 결제 후 1주 이내 배송
- 샌디에이고 현장 수령 또는 전 세계 배송 지원
커스터마이징 및 결제
- 가격과 품질 유지를 위해 커스터마이징 불가
  - 결제는 전신 송금(wire transfer) 만 가능
  - W-9 양식은 다운로드 링크에서 제공됨
tinygrad 사용처
- openpilot에서 Snapdragon 845 GPU 기반 주행 모델 실행에 사용됨
- Qualcomm SNPE를 대체하며, 더 빠르고 ONNX 로딩, 학습 지원, attention 기능을 제공함
기능 및 성능
- 추론 전용이 아니며, autodiff 기반의 forward/backward 패스 모두 지원
- PyTorch와 유사한 API를 제공하지만 구조는 더 단순함
- 알파 버전으로 안정성은 낮으나 최근에는 비교적 안정적임
- PyTorch보다 2배 빠른 논문 재현이 가능해질 때 알파 단계를 종료할 예정임
- 속도 향상 요인
  - 각 연산마다 맞춤형 커널 컴파일로 형태별 최적화
  - lazy tensor 구조로 연산을 적극적으로 fusion
  - 간결한 백엔드로 커널 최적화 시 전체 성능 향상
개발 및 커뮤니티
- 개발은 GitHub와 Discord에서 진행 중
- tinygrad 기여(PR) 는 채용 및 투자 참여의 주요 경로로 간주됨
- tiny corp의 목표는 petaflop 상용화와 모두를 위한 AI 실현임