엔비디아, 블랙웰로 AI 추론 비용 최대 10분의 1로 낮춰

2 hours ago 1

블랙웰, 호퍼 대비 토큰당 비용 최대 90% 절감
의료·게임·콜센터로 확산…산업 전반 추론 단가 하락
HW·SW 결합 '토크노믹스' 강화…루빈서 추가 절감

[아이뉴스24 권서아 기자] 엔비디아가 차세대 그래픽처리장치(GPU) 플랫폼 '블랙웰(Blackwell)'을 통해 인공지능(AI) 추론 비용을 10분의 1 수준까지 낮출 수 있다고 22일 밝혔다.

엔비디아에 따르면 베이스텐(Baseten), 딥인프라(DeepInfra), 파이어웍스 AI(Fireworks AI), 투게더 AI(Together AI) 등 주요 추론 서비스 제공업체들은 블랙웰 기반 최적화 스택을 도입한 뒤 기존 '호퍼(Hopper)' 플랫폼 대비 토큰당 비용을 최대 90% 절감했다.

젠슨 황 엔비디아 CEO가 지난달 5일(현지시간) 미국 라스베이거스 퐁텐블로 호텔에서 열린 CES 2026 특별연설을 하고 있다. [사진=박지은 기자]젠슨 황 엔비디아 CEO가 지난달 5일(현지시간) 미국 라스베이거스 퐁텐블로 호텔에서 열린 CES 2026 특별연설을 하고 있다. [사진=박지은 기자]

산업별 적용 사례도 잇따르고 있다. 의료 AI 기업 설리.ai(Sully.ai)는 블랙웰 기반 오픈소스 모델을 도입한 이후 기존 폐쇄형 모델 대비 추론 비용을 약 10분의 1 수준으로 낮췄고, 응답 속도 역시 65% 개선됐다고 밝혔다.

게이밍 분야에서는 래티튜드(Latitude)가 블랙웰의 NVFP4(NVIDIA Floating Point 4) 저정밀 연산 방식을 적용해 토큰당 비용을 기존 대비 4분의 1 수준으로 절감했다.

고객 서비스 기업 데카곤(Decagon)도 음성 AI 서비스에 블랙웰을 활용해 상호작용 비용을 6분의 1 수준으로 낮춰 400밀리초(ms) 이하의 응답 속도를 구현했다.

엔비디아는 이러한 비용 하락 추세가 차세대 '루빈(Rubin)' 플랫폼에서 더욱 확대될 것으로 전망했다. 루빈은 블랙웰 대비 최대 10배의 성능 향상과 토큰 비용 추가 절감을 목표로 한다.

엔비디아는 하드웨어와 소프트웨어 최적화를 결합해 토큰당 비용 구조를 개선하는 이른바 '토크노믹스(tokenomics)' 전략을 지속 강화해 나간다는 방침이다.

/권서아 기자(seoahkwon@inews24.com)








포토뉴스



Read Entire Article