리벨리온·레드햇, 국내 첫 vLLM 밋업 개최··· "AI 위한 공동의 협력에 기여"

2 hours ago 1

[IT동아 남시현 기자] 생성형 AI 기술 추세는 시시각각 변한다. GPT-3 등장 이후 텍스트뿐만 아니라 이미지, 음성 등의 데이터도 같이 처리하는 멀티모달 AI가 대두됐고, 이어서 더 크고 더 긴 내용을 이해하는 경쟁이 붙었다. 그러다 일반 사용자 활용도 및 산업 현장에서의 활발한 확산을 위한 소형언어모델과 온디바이스AI가 화두로 떠올랐다가, 지금은 AI가 스스로 목표를 세우고 결정하는 AI 에이전트가 대세다. AI 기술은 시장이 필요로 하는 방향에 맞춰 기민하게 방향과 목표를 바꾸며 나아가고 있다.

AI가 빠르게 확산하면서 AI 서비스의 운영 효율성이 더욱 중요해지고 있다. 실제 서비스 환경에서의 추론 성능과 운영 효율성을 높여야만 AI 시장이 더 빠르게 확산하고, 장기적으로 시장 주도권과 경쟁력을 모두 가져갈 수 있기 때문이다. AI 반도체만 해도 처리 성능과 와트당 성능이 경쟁의 핵심이며, 이를 최적화하는 소프트웨어 측면에서도 가능한 빠르고 효율적으로 결과를 제공할수록 좋은 평가를 받는다.


지난 8월 19일, 파이토치 한국 사용자모임이 참여하는 ‘2025 vLLM 밋업’이 개최됐다 / 출처=IT동아 지난 8월 19일, 파이토치 한국 사용자모임이 참여하는 ‘2025 vLLM 밋업’이 개최됐다 / 출처=IT동아

최근 인공지능 시장에서 개발자들이 가장 신경 쓰는 부분은 대형언어모델(LLM)을 효율적으로 활용하는 방안이다. 대다수 AI가 LLM 활용에 초점이 맞춰져 있고, 더 많은 사람에게 더 빠르고 저렴하게 응답을 전달해야 서비스 경쟁력이나 단가 문제 등을 해결할 수 있어서다. 이를 위한 프로그램 집합체인 ‘라이브러리’로는 vLLM, 엔비디아 텐서RT-LLM, 허깅페이스 TGI, 마이크로소프트 딥스피드-MII 등이 있다.

각각의 라이브러리는 작동 조건에 따라 장단점이 뚜렷하지만, 누구나 무료로 소스코드를 쓸 수 있고 사용 환경에 맞춰 변조하거나 배포할 수 있는 vLLM이 가장 널리 쓰인다. 이에 따라 AI를 구동하는 것과 관련된 생태계 전반이 vLLM을 중심으로 움직이고 있다.

리벨리온과 레드햇, 국내 vLLM 생태계 지원 위해 맞손

vLLM 생태계가 곧 LLM 서비스 도입의 효율성을 좌우하는 만큼 해외에서도 벤처 투자사인 앤드리슨 호로위츠(a16z), 메타, 구글, IBM, 스노우플레이크 등이 주최하는 vLLM 관련 행사가 꾸준히 열리고 있다. 우리나라에서도 지난 8월 19일, 처음으로 vLLM 관련 밋업 행사가 개최됐다. 이번 밋업은 AI 반도체 설계 기업 리벨리온과 미국의 기업용 오픈소스 소프트웨어 설루션 기업 레드햇이 공동 주최하며, 파이토치 한국 사용자모임과 AI 양자화 기술 기업 스퀴즈비츠(SqueezeBits)가 공동으로 기획했다.

리벨리온 소프트웨어 아키텍트 총괄을 맡고 있는 김홍석 박사는 “이번 vLLM 밋업은 특정 기업을 알리기 위한 자리가 아닌 오픈소스 커뮤니티의 활성화를 위한 자리다. 리벨리온과 레드햇 모두 오픈소스에 기여하고자 모였으며, 단기적 효과보다는 vLLM의 장기적 성장에 기여해 AI 개발자와 리벨리온 같은 AI 반도체 기업들이 더 나은 환경에서 AI를 운용할 수 있도록 돕고자 한다”라고 행사 취지를 소개했다.

vLLM 생태계의 주축 ‘레드햇’, 기술 개요부터 협력 방안 제시


니콜로 루케시 레드햇 시니어 머신러닝 엔지니어가 vLLM의 개요를 발표하고 있다 / 출처=IT동아 니콜로 루케시 레드햇 시니어 머신러닝 엔지니어가 vLLM의 개요를 발표하고 있다 / 출처=IT동아

이어서 니콜로 루케시(Nicolo Lucchesi) 레드햇 시니어 머신러닝 엔지니어가 ‘vLLM을 위한 빠르고 효율적인 AI 추론 안내’를 주제로 발표했다. 니콜로 루케시는 “vLLM은 AI 모델을 규모 있게 제공하기 위한 방안이다. 노트북에서 LLM을 돌리는 수준을 넘어 엔비디아 H100 이상의 그래픽 카드를 갖춘 데이터 센터에서 모델을 조정, 구성, 최적화하는 정도에 필요한 방안이다. GPU를 효율적으로 관리하는 것이 vLLM의 핵심”이라고 설명을 시작했다.

vLLM의 기술적 특징은 페이지드 어텐션(PagedAttention)을 통한 메모리 관리, 컨티뉴어스 배칭(Continuous Batching)을 통한 처리량 향상에 있다. LLM 처리 과정은 문장 내 단어의 의미와 실제 정보를 가진 키값(Key-Value)을 GPU 메모리에 저장하는 ‘KV캐시’를 사용한다. 이 값은 대화 길이가 길어질수록 커지며 더 많은 공간을 차지한다. 페이지드 어텐션은 KV캐시를 작은 블록 단위로 나누고 메모리의 빈 공간에 분산저장하거나 필요한 만큼 할당한다. 덕분에 메모리 낭비가 줄어 더 많은 요청을 동시에 효율적으로 처리할 수 있다.


vLLM은 페이지드 어텐션, 컨티뉴어스 배칭을 활용해 LLM을 효과적으로 서빙하는 라이브러리다 / 출처=IT동아 vLLM은 페이지드 어텐션, 컨티뉴어스 배칭을 활용해 LLM을 효과적으로 서빙하는 라이브러리다 / 출처=IT동아

페이지드 어텐션으로 효율화된 데이터는 컨티뉴어스 배칭으로 처리된다. LLM 처리 기술은 여러 요청을 한 묶음으로 묶고 이를 모두 처리한 다음, 다음 요청으로 넘어갔는데, 이 방식에서는 응답 길이가 다르면 GPU가 유휴 상태로 들어가 효율이 떨어졌다. 컨티뉴어스 배칭은 요청이 들어오는 대로 즉시 처리 대기열로 처리하고, 요청을 처리하는 중간 중간 비어있는 공간에 다음 요청을 채워넣어 높은 효율을 유지한다. 두 기술이 vLLM 라이브러리의 근간이다.

여기에 최근에는 △ 메모리 관리를 넘어 하드웨어에 맞게 최적화된 연산을 제공하는 커스텀 커널 △ 상황에 맞는 어텐션 기술을 적용하는 어텐션 백엔드 △ 연산 병합을 통해 성능을 끌어올리는 커스텀 퓨전 △ 동적 최적화를 지원하는 토치 컴파일링 △ 다중 병렬화 등의 최적화 기법이 도입되는 추세다. 하드웨어도 엔비디아 쿠다 이외에 AMD ROCm, 구글 TPU, 인텔 가우디, AWS 뉴런 등 광범위하게 지원한다.


다니엘레 트리피로 레드햇 AI 추론 서버 엔지니어가 vLLM 실제 활용 방안 등을 공유하고 있다 / 출처=IT동아 다니엘레 트리피로 레드햇 AI 추론 서버 엔지니어가 vLLM 실제 활용 방안 등을 공유하고 있다 / 출처=IT동아

다니엘레 트리피로(Daniele Trifirò) 레드햇 AI 추론 서버 엔지니어는 ‘vLLM을 위한 인프라스트럭처 구축 및 시험’을 주제로 발표했다. 다니엘레 트리피로는 “vLLM 버전은 약 3주마다 업데이트되고 있으며, 지난 버전과 현재 버전을 비교해 3주 만에 3만 줄이 변경되고 5만 5000줄이 삭제됐을 정도로 빠르게 변하고 있다”라면서, “LLM 환경 자체는 빠르게 변하고 설치만 하면 되는 것 같지만, 실제로는 엔비디아, AMD, 구글, 인텔 모두 다른 도구가 필요하고 구축 시 메모리도 많이 필요하다”라고 설명을 시작했다.

AI를 쿠다로 구축할 때 프로세스당 4GB 이상의 메모리가 필요할 수 있으며, 너무 병렬화를 많이 하면 컴퓨터가 다운될 수 있으므로 최대 작업 수에 제한을 둘 것을 권장했다. 또 ‘TORCH_CUDA_ARCH_LIST’로 필요한 GPU 아키텍처만 지정해 작업 시간을 단축해야 한다고 첨언했다. 파이썬 코드만 수정하는 경우 최신 환경변수를 불러오는 방법, LM 평가 하네스(LM Evaluation Harness)와 카타LM(CataLM)을 통한 AI 모델 성능 평가 방법도 제안했다.

박진연 한국레드햇 부사장은 “레드햇은 전 세계적으로 vLLM 커뮤니티를 지원하고 있으며, 오픈소스 기반의 AI 혁신을 주도하고 있다. 지난해 11월에는 vLLM 커뮤니티의 핵심인 뉴럴매직을 인수해 AI 추론 최적화 분야의 기술력과 시장 리더십을 확보했고, 엔비디아, AMD 등과도 전략적 기술 파트너십을 갖춰왔다”라면서, “이번 밋업은 vLLM에 대한 국내 개발자들의 관심과 기술적 요구에 부응하면서, 차세대 AI 반도체 기업인 리벨리온과 함께하는 의미있는 자리였다. 앞으로도 레드햇은 국내 AI 커뮤니티 및 기업과의 기술 교류를 통해 오픈소스 기반의 AI 혁신을 가속하겠다”라고 말했다.

리벨리온, 효과적인 vLLM 지원과 발전 위해 생태계 참여


김홍석 리벨리온 소프트웨어 아키텍트 총괄이 리벨리온이 vLLM 생태계에 지원할 사항에 대해 얘기 중이다 / 출처=IT동아 김홍석 리벨리온 소프트웨어 아키텍트 총괄이 리벨리온이 vLLM 생태계에 지원할 사항에 대해 얘기 중이다 / 출처=IT동아

이어서 김홍석 박사가 AI 가속기 환경에서 vLLM의 효과, 어떻게 vLLM이 플러그인 환경에서 동작하는지 등에 대해 발표했다. 김홍석 박사는 “리벨리온은 2020년 설립돼 AI 반도체를 설계하고 있으며, 2022년부터 매년 새로운 AI 가속기를 출시하고 있다. 첫 칩인 아이온(ION)과 두 번째인 아톰(ATOM), 지금은 리벨 쿼드 출시를 앞뒀다”라며 설명을 시작했다.

우선 vLLM의 강점으로 다양한 추론 최적화를 제공할 뿐만 아니라, 모델 API 형태로 제공돼 개발자들이 쉽게 활용할 수 있다는 얘기가 선행됐다. 또 운영체제와 하드웨어 사이의 소프트웨어 계층인 하드웨어 추상화 계층에서 엔비디아 그래픽 처리 장치(GPU)뿐만 아니라 구글 텐서 처리 장치(TPU), 신경망 처리 장치(NPU) 등 다양한 AI 가속기를 지원하기 시작했음을 강조했다. vLLM은 AI 반도체 기업들이 기존 생태계에 쉽게 진입할 수 있도록 돕고, 향후 AI 반도체 시장의 판도를 바꿀 수 있는 요인인 셈이다.


리벨리온은 vLLM 플러그인 형태로 하드웨어 지원을 도울 예정이다 / 출처=IT동아 리벨리온은 vLLM 플러그인 형태로 하드웨어 지원을 도울 예정이다 / 출처=IT동아

리벨리온은 파이토치가 AI 하드웨어와 생태계의 중심축이 되고 있음에 집중한다. 파이토치를 활용해 기업들이 리벨리온 NPU를 쉽게 서비스에 도입할 기반이 마련됐고, 또 vLLM에서 지원하는 vLLM 기능을 별도의 코드 수정 없이 리벨리온 NPU에서 그대로 쓸 수 있다. 리벨리온 NPU는 vLLM을 통해 허깅페이스 상의 다양한 MoE 모델(전문가 모델)을 지원하고 있다. MoE 모델은 LLM 성능을 높이기 위해 전문가라 불리는 하위 모델을 활용하는데, 대규모 LLM의 성능과 효율을 끌어올릴 수 있어 최근 주목받고 있는 기술이다. 리벨리온은 vLLM 지원을 통해 MoE 같은 최신 기술을 발빠르게 자사 제품과 접목하겠다는 계획이다.


김형준 스퀴즈비츠 대표가 자사 서비스인 핏츠 온 칩스에 대해 간략히 설명했다 / 출처=IT동아 김형준 스퀴즈비츠 대표가 자사 서비스인 핏츠 온 칩스에 대해 간략히 설명했다 / 출처=IT동아

김형준 스퀴즈비츠 대표는 “vLLM의 양자화 방식은 직접 양자화를 거친 모델을 활용하거나, 자체적인 LLM 컴프레서를 활용한다. LLM 컴프레서는 레이어별로 순차적인 추론과 양자화 스케일 탐색을 통해 텐서 압축 포맷으로 저장한다. vLLM은 이를 자동 인식해 적절하게 추론한다”라고 설명을 시작했다.

이어서 “이 기술은 특정 하드웨어에 종속하지 않고 NPU 등 다양한 하드웨어에서 활용할 수 있으며, 사후 양자화 기법인 GPTQ 같은 알고리즘이 요구하는 FP32 정밀도 연산은 CPU로 해결한다. 이때 스퀴즈비츠의 핏츠 온 칩스(Fits-on-Chips)를 활용하면 시각적 인터페이스를 기반으로 모델 선택 단계부터 서빙 옵션 조정, 장치 프레임워크 등을 서비스 환경에 맞게 최적의 방식으로 압축하고 시험할 수 있다”라고 말했다.


퇴근 이후 개최된 밋업이었지만 많은 개발자들이 늦게까지 자리를 지키고 강의를 들었다 / 출처=IT동아 퇴근 이후 개최된 밋업이었지만 많은 개발자들이 늦게까지 자리를 지키고 강의를 들었다 / 출처=IT동아

김형준 대표는 “올해 초 미국 vLLM 밋업에 참석했는데 AI 개발자들이 각자의 경험담을 공유하고 생태계 발전을 놓고 토론하는 모습이 인상적이었다. 첫 vLLM 밋업을 개최해 보니 우리나라의 오픈소스 생태계와 참가자 모두 실리콘밸리 못지 않음을 느꼈다”라면서 “AI 분야가 발전하는 만큼 오픈소스 생태계가 그 흐름을 주도할 것이다. 모두의 역량 향상을 위해 오픈소스에 대해 더 토론하고 시행착오를 줄여나가야 한다. 정기적인 밋업과 스터디, 활용 사례 공유 등의 장을 마련하겠다”는 뜻을 밝혔다.

박정환 파이토치 한국 사용자 모임(PyTorchKR) 운영자는 “기업의 AI 도입이 본격화되며 스타트업부터 대기업까지 규모를 불문하고 vLLM에 관심을 갖고 서비스에 도입하는 사례가 늘고 있다”라면서, “아쉽게도 그간 국내 기업들은 오폰소스 생태계를 지원하거나 기여하는 점에 있어서 소극적이었다. 이런 상황에서 리벨리온이 vLLM 생태계 지원에 팔을 걷어붙인 상황은 매우 의미 있고 반가운 변화며, 생태계의 지속 가능한 발전에 기여하겠다는 의지를 볼 수 있는 대목이다. 앞으로 더 많은 국내 기업들이 교류에 참여하며 성장하는 선순환 구조가 마련되기를 기대한다”라고 말했다.

오픈소스 지원은 모두에게 이득, 선의의 경쟁 늘어야

“오픈 소스는 폐쇄형 소스와 달리 누구나 기여할 수 있어 발전 속도가 빠르다. 오늘날 AI 개발 생태계가 오픈소스를 중심으로 돌아가는 이유도 이런 개방성과 민첩성 덕분”이라고 김홍석 박사가 말했다. 실제로 엔비디아, 마이크로소프트 등 AI 기업들이 LLM 효율화 라이브러리를 내놓고 있지만 vLLM의 점유율이 가장 높다. 소스코드가 무료로 배포되는 데다가 집단 지성을 바탕으로 빠르게 발전하고 효율화하는 덕분이다.


좌측부터 배권한·박정환 파이토치 한국 사용자모임 운영자, 김형준 스퀴즈비츠 대표, 김홍석 소프트웨어 아키텍트 총괄 / 출처=IT동아
좌측부터 배권한·박정환 파이토치 한국 사용자모임 운영자, 김형준 스퀴즈비츠 대표, 김홍석 소프트웨어 아키텍트 총괄 / 출처=IT동아

하지만 박정환 운영자의 말처럼 국내에서는 오픈소스 생태계에 대한 지원이 넉넉한 상황이 아니다. 실리콘밸리가 생태계를 주도하다 보니 선뜻 나서서 지원하겠다는 기업이 많지 않다. 누군가는 하겠지 하는 방관자 효과가 은연중에 작용한다. 그렇기 때문에 이번 리벨리온의 지원은 국내 AI 기업들에게 귀감이 되는 부분이다. 리벨리온 입장에서는 AI 생태계 개발자들을 대상으로 선점 효과를 노리는 것이므로 모두에게 이득이다. 다른 AI 반도체 기업들이 참여해 선의의 경쟁을 지원 경쟁을 벌이는 것도 생태계 입장에서는 매우 긍정적이다.

리벨리온은 올해 이후에도 꾸준히, 정기적으로 vLLM 뿐만 아니라 다른 오픈소스 생태계를 지원하겠다고 했다. 국내 주요 AI 기업들도 이에 동참해 모두가 수혜를 받고, 더 나아가 우리나라 전체의 AI 경쟁력 강화에 도움이 되기를 바란다.

IT동아 남시현 기자 (sh@itdonga.com)

Read Entire Article