소버린 AI의 다음 단계… 산업 IP 데이터를 협상 테이블 위로

4 days ago 6

소버린 AI 논의가 진단의 단계를 지나 정책 의제의 단계로 옮겨가고 있다. 지난 5월 글로벌 빅테크 9개사가 결성한 'SAIL(Shared AI License) Foundation'이 출범한 이후 약 두 달이 지났다. 그 사이 국내 산업계와 정책 현장에서는 한국의 AI 파운데이션 IP 자산이 글로벌 협상 테이블 위에서 어떤 무게로 환산될 것인가에 대한 물음이 빠르게 구체화되고 있다.

물음은 이미 정리되어 있다. 자체 파운데이션 모델, 국산 AI 반도체, 산업 도메인 데이터의 세 축 가운데 세 번째 축이 비어 있다는 진단은 산업 IP 업계 안에서 공감대를 얻은 상태다. 모델과 반도체가 갖춰진 뒤에도 한국 AI가 글로벌 시장에서 어떤 위치에 설지를 결정하는 것은 산업 데이터, 그중에서도 특허 데이터로 대표되는 산업 IP 자산이라는 점에 큰 이견은 없다.

이제 남은 것은 그 자산을 어떻게 움직일 수 있는 형태로 가공할 것인가의 문제다. 4회에서는 산업 IP 데이터를 협상 테이블 위로 올리기 위한 세 가지 정책 의제를 짚는다.

◇ 산업 도메인 데이터의 학습 가능 형태 표준 필요

특허 데이터는 그 자체로는 협상 카드가 되지 않는다. 출원서 PDF, 청구항 텍스트, 도면 이미지가 흩어져 있는 상태로는 AI가 학습할 수 없고, AI가 학습하지 못한 데이터는 글로벌 협상 테이블 위에서 환산되지 않는다.

이 단계에서 산업 IP 업계가 가장 먼저 짚는 것이 학습 가능 형태(AI-Ready) 표준이다. 한 건의 특허 문헌이 어떤 구조로 분해되어야 학습 자산이 되는가, 청구항ㆍ명세서ㆍ도면ㆍ인용 정보가 어떤 단위로 묶여야 모델 학습에 투입 가능한가, 가공 과정에서 권리 정합성이 어떻게 검증되어야 하는가의 문제다.

산업 IP 영역에서 자체 도메인 특화 언어모델을 운영하는 한 민간 사업자의 경우, 글로벌 106개국에서 누적된 1억 7천만 건의 특허, 2,500억 개의 특허 문장, 16억 장에 이르는 도면을 학습 자산으로 가공해 도메인 모델에 투입하고 있는 것으로 알려져 있다. 검색ㆍ분석을 넘어 권리 문서의 정합성 점검까지 운영하는 단계다. 산업 IP 데이터 가공의 표준이 민간 영역에서 먼저 형성되고 있다는 신호다.

문제는 이 표준이 민간 사업자의 운영 표준으로만 머무를 것인지, 국가 단위의 가공 표준으로 정립될 것인지에 있다. 모델별로 가공 형태가 다르고, 같은 청구항이 사업자별로 다른 구조로 분해된다면 글로벌 협상 테이블 위에서 한국이 들고 갈 공통 화폐가 만들어지지 않는다. 산업 IP 데이터의 가공 표준은 한 사업자의 운영 노하우가 아니라 국가 단위의 정책 자산으로 정립되어야 한다는 목소리가 늘고 있다.

◇ 민간 도메인 모델과 국가 데이터 자산의 정합성 점검 필요

자체 파운데이션 모델 흐름과 산업 IP 데이터 흐름은 별개의 트랙으로 굴러왔다. 한쪽에서는 LG AI 연구원, 네이버, 카카오 등이 자체 파운데이션 모델을 학습ㆍ고도화해 왔고, 다른 한쪽에서는 산업 IP 데이터를 다루는 민간 사업자가 도메인 특화 모델을 별도로 운영해 왔다.

두 흐름이 만나는 지점에서 의미 있는 신호가 잡힌다. 산업 IP 데이터를 다루는 한 민간 사업자가 LG AI 연구원과 특허 특화 모델 고도화 협력을 진행 중인 사례, 한국전자통신연구원(ETRI)이 추진한 특허 검색ㆍ분석 솔루션 사업에서 민간 산업 IP 사업자가 우선협상대상자로 선정된 사례 등이 같은 시기에 관찰된다. 모델 사업자가 산업 IP 데이터의 정합성과 맞물려야 비로소 산업 도메인에서 작동 가능한 모델이 만들어진다는 인식이 자리잡고 있다는 의미다.

다만 이 정합성 점검이 개별 협력 사례에 머물러서는 국가 단위 전략으로 확장되지 않는다. 정책 의제로 정리하면 세 갈래다. 자체 파운데이션 모델 사업자가 학습에 활용 가능한 산업 IP 데이터의 범위와 형태에 대한 국가 가이드라인, 민간 사업자가 가공한 도메인 데이터 자산의 공공 활용 통로, 그리고 모델ㆍ데이터ㆍ하드웨어 3축 사이의 정합성을 정기적으로 점검하는 거버넌스 체계다.

산업 IP 데이터를 다루는 같은 민간 사업자는 산업통상자원부 'Tech-GPT' 사업과 지식재산처 AX 사업에 동시 참여하고 있는 것으로 전해진다. 모델 사업과 산업 IP 사업이 서로 다른 부처의 트랙에서 굴러갈수록, 두 축의 정합성을 한자리에서 점검하는 정책 기구의 필요성은 커진다.

◇ 글로벌 표준특허 협상 통로에 산업 IP 시각이 들어가야 한다

SAIL Foundation이 출범한 이후 가장 빠르게 움직인 것은 협상 테이블의 좌석이다. 회원사 9개사가 보유한 약 2만 건 이상의 AI 파운데이션 관련 특허가 회원사 간 상호 라이선스로 묶이면서 풀 외부의 사업자가 같은 영역에서 라이선스 협상을 시도할 경우의 협상력 약화가 이미 영국 IP 전문 로펌 Marks & Clerk의 분석을 통해 제기된 바 있다. Marks & Clerk은 SAIL이 공식 표준화 기구 없이도 파운데이션 모델 IP 환경을 표준필수특허(SEP) 체제와 유사한 방향으로 진화시키고 있다고 분석했다.

이 흐름에서 한국이 놓치기 쉬운 것은 협상 통로의 부재다. 글로벌 표준특허 협상은 통신 산업의 ETSI, 영상 산업의 MPEG LA 같은 표준화 기구를 통해 이뤄져 왔다. AI 파운데이션 영역에서는 그러한 공식 표준화 기구 없이도 SAIL과 같은 사적 풀이 사실상의 표준 통로 역할을 시작하고 있다. 표준 통로가 사적 풀의 형태로 형성될 때 풀 외부 국가가 그 통로에 진입하는 방법은 제한적이다.

이 단계에서 산업 IP 업계가 짚는 의제는 두 가지다. 글로벌 AI 라이선스 풀의 동향을 상시 모니터링하는 국가 단위 분석 체계, 그리고 국내 기업이 보유한 산업 IP 자산을 풀의 협상 단위(청구항ㆍ패밀리ㆍ피인용)로 환산해 협상 테이블 위로 올릴 수 있는 통로의 마련이다.

윤정호 워트인텔리전스 대표(변리사)는 “통신 산업에서 FRAND(공정ㆍ합리ㆍ비차별) 의무가 도입되기까지 약 10년의 표준화 진통이 있었다”며 “AI 파운데이션 영역에서 SAIL이 유사한 진화 경로를 밟는다면 풀에 진입하지 못한 국가는 협상 자체에서 구조적 약자 위치에 설 수 있다”고 분석했다. 이어 “한국이 협상 테이블의 안쪽에 자리 잡기 위해서는 모델ㆍ반도체ㆍ데이터의 3축 위에 산업 IP 협상 통로라는 한 축을 더 세워야 한다”고 강조했다.

◇ 소버린 AI는 자급의 문제가 아니라 협상의 문제

지난 회에서 산업 IP 업계 한 관계자는 “소버린 AI라는 단어가 처음 등장했을 때 시장은 그것을 자급자족의 언어로 받아들였다. 그러나 한 단계 더 들여다보면 소버린은 자급의 문제가 아니라 협상 테이블의 문제”라고 진단한 바 있다.

이번 회에서 정리한 세 가지 의제는 그 진단을 정책 의제로 옮겨 놓은 것이다. 산업 도메인 데이터의 학습 가능 형태 표준, 민간 도메인 모델과 국가 데이터 자산의 정합성 점검, 글로벌 표준특허 협상 통로의 마련 세 의제 모두 모델과 반도체 의제와는 별개의 트랙으로 굴러가야 하는 정책 과제다.

올해 하반기 들어 산업 IP 데이터의 가공ㆍ운영 사업자가 국내에서 본격적으로 모습을 드러내기 시작했다. 자체 도메인 특화 언어모델 위에서 검색ㆍ분석ㆍ권리 정합성 점검까지 운영하는 단계의 사업자가 등장하면서 산업 IP 영역의 학습 자산과 협상 자산이 동시에 축적되는 흐름이 관찰된다. 모델ㆍ반도체ㆍ데이터의 3축 가운데 비어 있던 세 번째 축이 민간 영역에서 먼저 채워지고 있다는 의미다.

남은 것은 정책의 속도다. 글로벌 AI 라이선스 풀이 가동되기 시작한 시점, 산업 IP 데이터의 가공ㆍ학습 인프라가 민간에서 자라기 시작한 시점, 자체 파운데이션 모델과 산업 IP 데이터가 만나는 첫 사례가 등장한 시점이 한자리에 겹쳤다. 세 가지 시점이 동시에 열린 시기에 국가가 어떤 의제를 어떤 속도로 정리할 것인가가 한국 소버린 AI 전략의 다음 한 해를 가른다.

서희원 기자 shw@etnews.com

Read Entire Article