인공지능(AI)은 새로운 무언가를 만들어낼 수 없습니다. 오직 학습한 것을 기반으로 결과물을 내놓을 수 있을 뿐입니다. 우리는 학습 데이터의 한계점에 다가가고 있습니다. 그래서 우리는 새로운 지식을 만들려고 합니다. 다음 시대, 즉 우리가 새로운 지식을 생성할 수 있는 '경험의 시대'에 대해 생각해 봅시다. 우리는 에이전트가 더 강해지고 성장하기 위해 지식의 원천, 데이터의 원천이 필요합니다. 우린 체스나 바둑에서 이런 사례를 봤습니다. AI는 자신과 스스로 경기하면서 성장했습니다. 처음에는 쉬운 상대(자신)와 대결하다가 강해졌고, 강력해진 자기 자신과 끊임없이 대결했습니다. 우리에게 필요한 데이터의 원천은 인터넷처럼 고정된 것이 아닙니다. 변화하고 발전하는 형태여야 합니다. 핵심은 우리가 이런 데이터를 AI의 경험을 통해서 얻을 수 있다는 사실입니다.
(AIs can't come up with anything new. They can only come up with what they've been trained on. we're starting to reach the limits of the data. so we want to generate genuinely new knowledge. let's think about this next era, the era of experience, where we can generate that new knowledge. We need a source of knowledge, a source of data that grows and improves as the agent becomes stronger. And we saw this like in the chess playing programs and the gold playing programs. They would play against themselves, so they would have an easy opponent in the beginning. And then as they became stronger, they kept playing against themselves, so their opponent became stronger. We need a data source that's like that, not a fixed data source like the internet. The key observation is that we can get data like that from experience.)
-지난 10일 유튜브 채널 'Amii'에서 리처드 서튼
리처드 서튼은 누구
AI 분야의 세계적 석학. 강화학습(Reinforcement Learning) 분야의 선구자 중 한 명. 캐나다 앨버타대학교 컴퓨터과학과 교수로 재직 중이다. 2024년 ‘컴퓨터계의 노벨상’으로 불리는 튜링상을 받았다. 강화학습의 이론적 및 알고리즘적 기초 확립 관련 공로를 인정받았다. 그의 저서 <Reinforcement Learning: An Introduction>은 3만 번 이상 인용된 강화학습 분야의 표준 교과서로 꼽힌다.
리처드 서튼이 하고 싶은 얘기는
서튼 교수는 AI 모델(LLM) 등이 인간이 만든 각종 데이터를 거의 소진했다고 지적한다. 이제 인간 지식의 범주 안에서 아무리 더 학습해도 다음 단계로 도약할 새로운 정보를 더 이상 얻기 어렵다는 것이다. 이미 수학·코딩·과학 등 전문성이 강한 영역에서 AI의 성능 향상이 둔화했다는 징후가 나타났다. 그래서 AI 모델은 머지않아 한계에 부딪힐 것이라는 주장이다.
상당수 AI 모델은 인터넷·도서·논문 등 이미 존재한 데이터를 학습한다. 그러나 인간이 생산한 고품질 데이터는 유한하다. 사실 AI가 생성하는 응답은 본질적으로 기존 데이터의 재조합일 뿐이다. 스스로 완전히 새로운 지식을 발견하거나 실험을 통해 검증하지 못한다.
마치 세상의 모든 책을 읽은 학생과 같다. 이 학생은 이미 존재하는 지식에 대해서는 매우 박식하다. 하지만 스스로 실험하거나 새로운 이론을 만들어내는 창의적인 연구는 할 수 없다. AI도 학습한 데이터의 '범위'와 '수준'을 뛰어넘는 새로운 개념이나 지식을 창조하기는 어렵다.
AI에 먹일 만한 양질의 데이터가 인터넷상에서 고갈돼 가고 있다. AI가 전 세계의 데이터를 거의 다 학습했기 때문이다. 단순히 AI 모델 크기만 키우고 같은 데이터를 반복 학습시키는 것만으로는 성능을 획기적으로 높이기 어렵다.
서튼 교수는 AI가 직접 경험해 얻은 자기 생성 데이터가 돌파구가 될 수 있다고 주장한다. 바둑 AI '알파고' 이후 나온 '알파제로'처럼 AI가 자신과 경쟁하며 데이터를 만들어 내면 기초 단계에서는 약한 상대(스스로)를 만난다. 실력이 늘수록 상대도 같이 강해지는 무한 구조가 자연스럽게 형성된다. 이 방식은 데이터도, 난이도도 AI 모델의 성장에 따라 함께 확장하는 것이 특징이 있다.
서튼 교수가 평소 강조한 '강화학습 에이전트 패러다임'은 행동 → 환경 반응 → 보상 → 개선의 과정을 통해 경험 데이터가 자동으로 축적된다. 인간의 AI 지도 학습과 달리 학습·데이터·평가가 하나로 묶이는 구조다. 이런 방식의 AI 확장은 끝이 없다. AI가 스스로 난도를 높이는 커리큘럼을 설계하기 때문에 데이터 고갈이 없다. 새로운 발견도 가능하다. 기존 인간 지식을 넘어선 패턴·전략·가설을 탐색해 새로운 지식을 만들 수 있다.
현재 AI 모델은 대부분 '지식의 소비자'이자 '모방가'다. 서튼 교수는 AI가 '지식의 생산자'이자 '창조자'로 진화할 수 있는 길을 제시했다. 이는 AI가 인간의 지능을 넘어서는 '초지능'으로 가기 위한 필수 단계다. 기존 방식이 인간 지식의 '지도'를 외우는 것이라면 서튼의 방식은 AI에 '탐험하는 법'을 가르쳐 지도에 없는 새로운 대륙을 발견하게 하는 것과 비슷하다.
굳이 반론을 한다면
서튼 교수 주장에 대한 반론도 있다. 우선 인간이 만든 데이터가 곧 고갈된다는 전제가 과장됐다는 것이다. 예를 들어 영국 국립공문서관은 대규모 디지털화 프로젝트를 진행했지만 90 % 이상의 자료를 아직 손도 못 댄 상태다. 인간이 만든 지식도 계속 늘고 있다. 미국 국립문서기록관리청(NARA)만 해도 작년에 8만8000 세제곱피트(cubic ft.) 아날로그 기록을 새로 수집했다. 이미 스캔된 페이지는 4억 건을 돌파했다. 서튼 교수가 지적한 데이터는 대부분 영어 텍스트다. 영어 외의 디지털화되지 않은 정보는 샐 수도 없다.
AI의 셀프 플레이(자기 학습) 방식도 한계가 있다. 올해 나온 논문인 'SeRL: 제한된 데이터로 대규모 언어 모델을 위한 자가 재생 강화 학습(SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data)', '운동 로코 조작을 위한 시뮬레이션과 현실의 간극 좁히기(Bridging the Sim-to-Real Gap for Athletic Loco-Manipulation) 등을 보면 게임과 시뮬레이션에서 자기 학습으로 성능이 향상된 AI와 로봇이 현실 세계(물리적 세계)에선 불안정하고 성능이 떨어지는 결과가 나왔다. AI의 잘못된 편향성도 강화됐다.
알파고처럼 명확한 보상(승패)가 없는 현실에서 AI가 스스로 '경험'하며 학습한다는 것은 망망대해에서 나침반 없이 항해하는 것과 같다. 현실에선 규칙은 모호하고 끊임없이 변하며 정보는 불완전하고 비대칭적이다. 어떤 행동의 결과는 수십 년 뒤에 나타나기도 하고, '성공'이라는 목표 자체가 여러 가치가 충돌하는 복합적인 개념이다.
AI가 만든 합성·경험 데이터를 계속 학습하면 AI 기반 자체가 무너질 수도 있다. 지난해 국제 학술지 '네이처'에 소개된 '재귀적으로 생성된 데이터로 학습할 때 무너지는 AI 모델' 논문에 따르면 합성 데이터 반복 학습은 정보를 빠르게 왜곡·소실시켜 AI를 퇴행시킨다. 엔비디아도 최근 합성 데이터가 AI 모델을 붕괴시킬 수 있다며 ‘실제 데이터 대비 균형’ 가이드라인을 내놓았다.
무엇보다 '제로베이스'에서 시작해 AI가 모든 것을 스스로 깨우치게 한다는 발상은 인류가 수천 년간 축적한 지식의 가치를 무시하는 접근일 수 있다. 왜 AI가 뉴턴의 운동 법칙이나 칸트의 윤리학을 스스로 재발견해야 할까? 엄청난 자원과 시간의 낭비다.
사회적 규범, 윤리적 딜레마, 법적 책임 등의 개념을 AI가 시행착오로 학습하게 방치하는 건 재앙을 초래할 수 있다. AI가 '살인은 나쁘다'는 것을 수많은 가상 살인을 저지른 후에 배우도록 내버려 둘 수는 없다. 인류의 축적된 지식은 AI가 안전한 탐색을 할 수 있도록 '가드레일' 역할을 해야 한다. 이를 무시하는 것은 고삐 풀린 강력한 존재를 세상에 풀어놓는 것과 같다.
[AI 엑스파일은 글로벌 AI 산업, 학계 등의 최전선에서 AI를 고민하는 이들의 얘기를 전달합니다. 색다른 AI 이슈를 편하게 보시려면 기자 페이지를 구독해 주세요]
김주완 기자 kjwan@hankyung.com