GPU 머신 개발의 배경
- Fly.io는 자체 하드웨어를 기반으로 한 퍼블릭 클라우드를 구축 중이며, 고객에게 GPU를 제공하는 것을 목표로 함.
- Fly GPU Machines는 AI/ML 추론 작업을 위한 GPU를 제공하는 Docker/OCI 컨테이너 기반의 가상 머신임.
- Nvidia GPU를 하드웨어에 매핑하여 CUDA 작업을 빠르게 처리할 수 있는 환경을 제공함.
GPU 머신 개발의 어려움
- GPU 머신 개발은 작은 프로젝트가 아니었으며, 보안 문제와 하드웨어 제약으로 인해 많은 도전 과제가 있었음.
- Nvidia의 드라이버 지원 부족으로 인해 가상화된 GPU를 효과적으로 활용하는 데 어려움이 있었음.
- 보안 평가를 위해 Atredis와 Tetrel과 협력하여 대규모 보안 평가를 진행함.
GPU 머신의 한계
- 많은 개발자들이 GPU보다는 LLM(대규모 언어 모델)을 원하고 있음.
- OpenAI와 Anthropic 같은 회사의 API가 충분히 빠르고 비용 효율적이기 때문에 경쟁이 어려움.
- GPU를 활용한 AI 작업을 원하는 시스템 엔지니어는 많지만, 대부분의 소프트웨어 개발자는 API를 통한 접근을 선호함.
배운 점
- 스타트업은 학습의 경주이며, Fly.io는 GPU 머신을 통해 많은 것을 배움.
- GPU 머신은 Fly.io의 핵심 제품에 영향을 주지 않으면서도 많은 교훈을 제공함.
- Fly.io는 자바스크립트 런타임을 개발하면서 고객이 원하는 것은 새로운 런타임이 아니라 기존 코드를 활용할 수 있는 환경이라는 것을 배움.
- GPU 머신은 Fly.io의 핵심 비즈니스에 큰 영향을 주지 않았지만, 이를 통해 많은 것을 배울 수 있었음.