[AI 3강 필승전략]〈중〉고품질 데이터 확보 위한 시장 조성해야

6 hours ago 2
ⓒ게티이미지뱅크ⓒ게티이미지뱅크

인공지능(AI) 3대강국 도약을 위해서는 AI 시대 원유와 같은 고품질 데이터 공급체계 구축이 절실하다. 공공데이터처럼 누구나 확보할 수 있는 데이터로는 AI 모델과 서비스 성능을 고도화하는 데 한계가 있을 수밖에 없다.

복수의 AI 스타트업 대표들은 “정부가 데이터 공급에 적극적인 것은 긍정적이지만 양질의 데이터를 충분히 확보하기는 쉽지 않을 것”이라며 “AI 학습용 데이터를 거래할 수 있는 시장이나 제도 부재로 창작자·저작권자들이 데이터를 공개하지 않으려는 게 현실”이라고 지적했다.

최근 정부가 '국가대표 AI 파운데이션 모델' 개발 프로젝트를 진행함과 동시에 데이터 공급기업을 모집하고, 데이터 확보를 위한 예산을 별도 지원한다는 계획이나 충분한 데이터 확보가 쉽지 않을 것이라는 게 업계 판단이다. 일부 사례를 제외하고는 AI·데이터 기업과 저작권자와 창작자 간 데이터 거래 자체가 거의 이뤄지지 않기 때문이다.

특히 AI 학습용 데이터에 대한 저작권 제도가 정비되지 않는 한 공급자와 수요자 간 데이터 제값에 대한 이견이 쉽게 좁혀지지 않을 것으로 업계는 보고 있다. 일부 기업은 AI의 공공성을 고려해 저작권법상 '공정이용'을 적용, 무료 데이터 제공을 희망하고 있어 창작자와 갈등이 불가피한 상황이다.

이같은 상황은 국내에만 국한된 게 아니다. 오픈AI·구글 등 글로벌 AI 선도기업들도 공공데이터는 물론, 저작권 데이터를 확보하기 위한 총력전을 펼치고 있다. 언론사나 출판사 등과 제휴가 방법이다. 데이터 무단 사용 문제로 소송전도 벌어진다. 뉴욕타임스의 오픈AI 상대 저작권 소송이 대표적이다.

마니쉬 굽타 구글 딥마인드 시니어 디렉터는 “AI 학습용 데이터 확보에 저작권은 항상 주요 이슈”라며 “저작권 문제가 없는 데이터를 확보하기 위한 노력을 지속하고 있다”고 말했다. 구글은 저작권에서 자유로운 데이터와 검색증강생성(RAG) 기술을 활용하고 저작권 계약 체결도 병행하고 있다.

굽타 디렉터는 데이터 시장 조성 필요성을 강조했다. 개인정보나 민감정보를 활용해도 된다는 사람들이 본인 정보를 판매하고 필요한 기업은 합리적 가격에 구입할 수 있는 '데이터 거래소'를 만들어야 한다는 의미다. 일정 규모 이상 사람들이 모이면 유의미한 데이터셋을 확보할 수 있다고 내다봤다.

AI 활용도를 높이고 글로벌 경쟁력을 강화하기 위한 AX(AI 전환)를 위해서도 산업용 데이터가 필요하다. 이주석 연세대 미래캠퍼스 교수는 “AI가 산업을 이해하고 지식을 쌓으려면 충분한 데이터가 있어야 한다”며 “기업 등에 축적된 데이터를 활용할 수 있는 방안을 강구해야 한다”고 조언했다.

복잡한 이해관계를 고려하면 정부가 AI 학습용 데이터 공급을 위한 역할을 도맡아야 한다는 의견이 나온다.

김기응 국가AI연구거점 센터장(KAIST 석좌교수)은 “미국에서 구글과 오픈AI가 저작권이 있는 공개적으로 이용 가능한 자료는 AI 학습에 사용하게 해달라고 정부에 요청했다”며 “AI 학습에 필요한 데이터의 저작자 권리를 완화해달라는 것으로, 우리 정부도 해법을 고민해야 할 때”라고 강조했다.

박종진 기자 truth@etnews.com

Read Entire Article