비전 인공지능(AI) 전문 기업 슈퍼브에이아이가 24일 기자간담회를 통해 국내 최초 산업 특화 비전 파운데이션 모델인 '제로(ZERO)'를 공개했다. ‘제로'는 단 90만 개 데이터와 8개월의 개발 기간만으로 글로벌 1위와 동등한 성능을 구현했다.
제로는 대규모 이미지 데이터로 사전 학습된 범용 비전 파운데이션 AI 모델이다. 추가 학습 없이도 다양한 시각적 작업에 적용 가능하다. 비전 모델이란 영상, 그림 등 시각 정보를 인식하는 AI를 말한다. 텍스트 기반의 LLM(대규모 언어 모델)이 언어 처리 분야에서 활용되는 것처럼, 비전 파운데이션 모델은 이미지 인식과 분석 분야에서 제조업 품질 검사, 안전 관제 효율화, 물류 자동화 등 다양한 산업에 적용될 수 있다.
가장 주목할 만한 기술은 제로샷 추론 방식이다. 미리 학습되지 않은 새로운 환경이나 사물도 즉시 인식할 수 있다. AI 도입 시 기업이 겪는 복잡한 데이터 수집이나 모델 재학습의 부담을 크게 줄였다. 또한 멀티모달 프롬프트 기반 사용 방식을 통해 텍스트 명령이나 예시 이미지 입력만으로 원하는 작업을 수행할 수 있도록 했다. 슈퍼브에이아이 관계자는 "산업 현장에서 변화하는 니즈에 따라 손쉽게 AI가 수행하는 업무를 조절할 수 있는 인터페이스를 제공한다는 점에서 의미가 크다"고 설명했다. 멀티태스크 처리 능력을 통해 단일 모델이 객체 탐지, 분류, 세분화 등 복잡한 비전 작업을 동시에 수행할 수 있다. 복잡한 산업 현장 문제를 단일 모델로 해결할 수 있도록 지원한다. 이를 통해 AI 도입 비용, 인력 등 현장 부담을 크게 낮췄다는 설명이다.
회사 측은 제로의 성능은 비전 파운데이션 모델 분야에서 가장 앞선 중국에 뒤지지 않는다고 강조했다. 차문수 슈퍼브에이아이 CTO는 "자체 성능 분석에서 중국의 '욜로'와 '티렉스2', '다이노엑스', 마이크로소프트의 '플로렌스2', 구글의 'OWL v2' 등 세계적 비전 파운데이션 AI보다 제로의 탐지 능력이 앞섰다"며 "세계적인 CVPR 객체탐지 대회에서도 중국업체에 이어 2등을 했다"고 설명했다.
제로는 엔비디아의 A100 GPU 8장을 사용해 개발됐다. 해외 주요업체들이 A100 64~128장을 사용해 모델을 개발한 것과 비교해 크게 효율화했다. 이를 가능하게 한 것은 슈퍼브가 보유한 MLOps 플랫폼의 데이터 선별 기술이었다는 설명이다. 모델도 경량화해 10억 파라미터 미만으로 설계했다. 연산량이 작아 엣지 디바이스나 클라우드 등 다양한 환경에서 가볍게 배포 가능하다. 월 이용료를 받는 구독형, 업체의 전산시스템에 설치하는 API 판매 등 다양한 방식으로 제공될 예정이다.
김현수 슈퍼브에이아이 대표는 "(글로벌 빅테크가 장악한) "LLM은 선진국과 기술 격차를 좁히는 것이 과제이지만 비전 파운데이션 모델은 우리가 공격적으로 리딩할 수 있다"며 "한국은 제조·조선·반도체 등 고도화된 산업 인프라를 가진 몇 안 되는 국가"라고 강조했다. 그러면서 "AI 강국이 되려면 산업혁신에 필요한 비전 파운데이션 모델에 투자하고 적극 활용해야 한다"고 주장했다.
고은이 기자 koko@hankyung.com