"수백 대 GPU 서버 효율적 관리…최적의 AI 연구개발 환경 만든다" [긱스]

1 week ago 2

인공지능(AI) 서비스 개발을 위해 필수적인 장비가 그래픽처리장치(GPU)다. 기업의 AI 서비스 규모가 커지면 이들이 보유하는 GPU 수도, GPU를 이용하는 개발자도 늘어날 수밖에 없다. 엔비디아의 H200 같은 GPU는 장당 가격이 수천만원에 이른다. 수백 대의 GPU 서버를 얼마나 효율적으로 배분하는지에 따라 개발 속도는 물론 비용까지 달라진다. GPU 서버를 보유한 기업 모두가 겪는 어려움이다.

"수백 대 GPU 서버 효율적 관리…최적의 AI 연구개발 환경 만든다" [긱스]

래블업은 이 같은 문제를 해결하기 위해 플랫폼 ‘백엔드닷에이아이(Backend. AI)’를 개발했다. 8일 만난 신정규 래블업 대표(사진)는 “개발자들이 AI 연구에만 집중할 수 있도록 모든 환경을 자동으로 구성해주는 솔루션”이라고 설명했다.

백엔드닷에이아이는 GPU가 장착된 리눅스 서버 위에 설치된다. 수십~수백 개의 GPU를 효율적으로 관리하고 자원을 자동으로 분산해준다. GPU와 이를 이용하는 사람이 늘어나면 누가 어디서 어떻게 GPU 자원을 쓰는지 파악하는 게 불가능하다. 신 대표는 “개발자가 GPU 100대를 사용해 AI 모델 학습을 하고 싶다고 입력하면 시스템이 가상의 환경을 생성해 분산 처리하고 실행까지 한다”고 말했다.

AI 개발자들은 백엔드닷에이아이 플랫폼에서 프로그래밍 언어와 필요한 GPU 숫자 등을 입력하면 5~10초 안에 개발 환경을 구성할 수 있다. 복잡한 설정이나 리소스 최적화는 모두 자동으로 처리된다. 대규모언어모델(LLM)을 불러와서 개발하거나 미세 조정(파인튜닝)하는 등의 기능도 제공한다.

래블업은 포스텍에서 물리학 박사 학위를 받은 신 대표와 박종현 연구소장, KAIST에서 컴퓨터공학 박사 학위를 받은 김준기 최고기술책임자(CTO)가 2015년 4월 공동 설립했다. 오픈소스 커뮤니티에서 수백 대 이상 컴퓨터를 사용할 때 발생하는 문제를 풀기 위해 함께 고민한 게 창업으로 이어졌다.

래블업은 창업 당시부터 오픈소스를 지향했다. 지금도 기본적인 백엔드닷에이아이는 누구나 내려받아 쓸 수 있도록 소스 코드를 공개하고 있다. 신 대표는 “폐쇄 플랫폼으로는 확장에 한계가 있다고 생각한다”며 “엔비디아, 인텔 같은 회사와 파트너십을 맺은 것도 소스를 공개하면서 입소문이 났기 때문”이라고 했다.

래블업의 주요 고객은 GPU 서버를 자체 보유한 기업이나 GPU를 고객사에 제공하는 클라우드 업체들이다. 최근에는 고객 확대를 위해 ‘백엔드닷에이아이 컨티넘’이란 서비스를 선보였다. 금융회사와 의료기관처럼 서비스 중단이 치명적인 분야가 대상이다. 평소에는 클라우드를 사용하다가 네트워크에 문제가 생겼을 때 자체 서버에서 서비스를 중단 없이 돌릴 수 있도록 한다. 전력이 끊기지 않도록 하는 무정전 전원 장치(UPS)와 같은 역할이다.

신 대표는 “백엔드닷에이아이의 자원 최적화 기술을 활용해 서비스를 확장했다”고 설명했다. 올해 1월 미국 지사를 설립하고 지난달 엔비디아 개발자 콘퍼런스 ‘GTC 2025’에 참여해 글로벌 파트너 확보에 나섰다.

이승우 기자 leeswoo@hankyung.com

Read Entire Article