[혁신플랫폼톡]AI의 핵심 자원, 데이터테크

22 hours ago 1
구름 빅밸류 대표구름 빅밸류 대표

최근 글로벌 인공지능(AI) 시장의 중심에서 주목받는 기업 중 하나는 바로 '스케일(Scale)AI'다. 메타의 대규모 투자를 받은 이 회사는 한편으로 주요 빅테크 기업으로부터 협업 거부 선언을 받는 아이러니한 상황에 직면했다. 이는 곧 AI 산업 전반에서 '데이터'의 중요성과 희소성이 얼마나 큰지를 보여주는 단적인 사례다. AI의 성장은 곧 데이터 수요의 폭발적 증가와 맞물려 있다. 데이터는 AI 발전의 연료이자 자양분이 되고 있다.

빅밸류는 최근 이러한 데이터를 AI가 역량을 발휘할 수 있게 하는 데이터 인프라이자 동시에 새로운 데이터 산업의 핵심 영역으로 보고, 이를 '데이터테크(Data Tech)'라 정의했다. 다시 말해 데이터테크는 AI 생태계의 토양이자 작동 기반, 나아가 지능이 실제로 기능하게 만드는 실질적 엔진이라 할 수 있다.

AI를 사람에 비유해보면 그 성장 과정은 명확히 드러난다. AI는 학습이라는 과정을 거쳐 점점 더 정교한 사고와 판단을 할 수 있게 된다. 그 각 단계마다 필요한 데이터의 성격과 역할이 다르다.

AI 모델이 처음 만들어질 때는 수많은 과거 데이터를 기반으로 언어, 논리, 상식, 개념 등을 습득한다. 이 과정을 프리트레이닝이라고 한다. 인간으로 치면 초등학교부터 대학원까지의 교육 과정에 해당한다. 긴 시간과 대용량의 양질 데이터를 필요로 한다. 그 품질과 범위에 따라 모델의 기초 지식 수준이 결정된다. 이 데이터는 책, 논문, 뉴스, 인터넷 대화, 코드 등 다양한 형태로 존재한다.

이 단계에서 중요한 역할을 하는 것이 크라우드소싱 기반 데이터 생성 기업들이다. 대표적으로 AI웍스와 같은 기업들이 전문화된 데이터셋을 수집, 정제, 분류해 프리트레이닝용 데이터 자원을 공급한다.

프리트레이닝을 마친 AI는 그 자체로 전능하지 않다. 특정 산업이나 업무에 적합한 AI로 발전하기 위해서는 파인튜닝이 필요하다. 이는 인간이 회사에 입사해 OJT를 거치며 실무를 배우는 것과 같은 과정이다.

산업 현장에서는 의료, 제조, 금융 등 도메인에 맞는 데이터를 사용해 AI를 미세 조정한다. 예컨대 공장 A와 공장 B가 같은 설비를 쓰더라도 환경이 다르기 때문에 각각의 현장에 맞는 데이터로 AI를 튜닝해야 한다. 이 과정에서 사용되는 데이터는 대부분 각 기업 내부에서 생산하고 활용하고 있는 고유한 자산이다.

강화학습(RL) 또는 인간 피드백을 통한 강화학습(RLHF)은 최근 로봇과 거대언어모델(LLM) 분야에서 주목받고 있는 학습 방식이다. 이 방식은 AI가 예측한 결과에 대해 사람이 직접 평가하거나 알고리즘이 보상패널티를 부여한다. 현장에서 새롭게 생겨나는 데이터가 끊임없이 누적되며 학습에 활용된다.

이 단계는 사람이 실무에서 선임과 함께 일하며 실수를 통해 배우고, 끊임없이 피드백을 받으며 성장하는 과정과 유사하다. 스케일AI는 바로 이 분야에서 데이터 오케스트레이션과 품질 관리의 강점을 바탕으로 세계적인 기업으로 자리 잡았다.

AI가 학습을 마친 후 실제 업무에서 일을 잘하려면, 지금 이 순간의 최신 정보가 필요하다. 인간도 실시간으로 회의에 참여하고, 뉴스를 읽고, 시장 상황과 고객 데이터를 분석하면서 판단을 내린다. AI도 마찬가지다.

최근 유행하는 RAG(Retrieval-Augmented Generation) 기법은 외부 지식베이스나 문서 저장소에서 정보를 불러와 LLM이 활용하게 하는 구조다. 이는 사람이 다양한 소스에서 정보를 수집해 보고서를 쓰는 것과 흡사하다. 또, 피지컬AI 분야에서는 수많은 센서와 카메라가 실시간 데이터를 제공해 다음 동작을 결정하게 만든다.

고위 임원이 광범위한 정보를 다루되 디테일은 현장 담당자에게 위임하는 것처럼 AI도 높은 수준의 의사결정을 위한 방대한 입력이 필요하다. 동시에 세부 실행을 위한 정밀한 정보도 요구된다.

바로 이 지점에서 빅밸류의 역할이 돋보인다. 빅밸류는 기업의 의사결정을 위한 양질의 데이터를 수집·가공해, AI에게 제공하는 데이터테크 기업이다.

결국 AI는 데이터로 자란다. 사람이 교육과 경험, 정보로 성장하듯 AI도 마찬가지다. 교육 데이터, 현장 데이터, 피드백 데이터, 실시간 정보까지 모든 것이 AI의 성장과 성능에 직결된다.

따라서 AI의 발전은 곧 데이터테크의 발전과 맞닿아 있다. 양질의 데이터, 빠른 정보, 차별화된 자산이 경쟁력인 이유다. 앞으로 수많은 데이터테크 기업들이 AI 생태계의 성장을 이끌기를 기대한다. 그 중심에서 빅밸류의 도전과 성장도 함께 주목하기를 바란다.

구름 빅밸류 대표 kloud80@gmail.com

Read Entire Article