마이크로소프트·코어위브·OCI 도입
차세대 '루빈' 성능 10배 목표
[아이뉴스24 권서아 기자] 엔비디아가 최신 플랫폼 인공지능(AI) 그래픽처리장치(GPU) '블랙웰 울트라'를 기반으로 에이전틱 AI 추론 성능과 비용 효율을 대폭 끌어올린 것으로 나타났다.
24일 엔비디아에 따르면 블랙웰 울트라 기반의 'GB300 NVL72'는 기존 '호퍼(Hopper)' 플랫폼 대비 메가와트(MW)당 처리량을 최대 50배 높였고, 저지연 환경에서 100만 토큰(AI 모델의 입출력 단위)당 비용을 최대 35분의 1 수준으로 낮췄다.
블랙웰 울트라 기반의 GB300 NVL72가 기존 호퍼(H200) 대비 메가와트(MW)당 토큰 처리량을 최대 50배 높인 것으로 나타났다. [자료=엔비디아]에이전틱(자율형) AI는 코드 생성, 자율형 작업 수행 등 여러 단계를 거치는 구조로, 긴 컨텍스트와 낮은 지연 시간이 핵심이다.
엔비디아는 블랙웰 울트라로 긴 컨텍스트 워크로드(컴퓨터 시스템이 처리해야 하는 작업의 양이나 부하)에서도 비용 경쟁력을 강화했다고 설명했다.
최대 12만8000 토큰 입력과 8000 토큰 출력을 처리하는 코딩 어시스턴트 기준을 예로 들며, GB300 NVL72는 이전 세대인 GB200 NVL72보다 토큰당 비용을 최대 1.5배 낮췄다.
성능 개선은 하드웨어와 소프트웨어 최적화를 병행한 결과다. NV링크 시메트릭 메모리로 그래픽처리장치(GPU) 간 직접 메모리 접근을 지원하고, 커널 실행 대기 시간을 줄이는 구조를 적용했다.
주요 클라우드 사업자도 도입에 나섰다. 마이크로소프트, 코어위브, 오라클 클라우드 인프라스트럭처(OCI)는 에이전틱 코딩과 장문 추론 워크로드에 GB300 NVL72를 적용하고 있다.
엔비디아는 차세대 GPU '루빈(Rubin)'도 예고했다. 루빈은 블랙웰 대비 메가와트당 최대 10배 높은 전문가 혼합(MoE) 추론 성능을 제공하고, 100만 토큰당 비용을 10분의 1 수준으로 낮추는 것을 목표로 한다.
/권서아 기자(seoahkwon@inews24.com)포토뉴스















English (US) ·