차세대 AI 모델 개발을 위한 패러다임의 전환

2 hours ago 1

인공지능 기술이 우리 일상에 깊숙이 스며들면서, 그 이면에 숨겨진 심각한 문제들이 점차 드러나고 있다. ChatGPT와 Claude 같은 대화형 AI가 놀라운 성능을 보여주는 것은 사실이지만, 이들을 구동하는 트랜스포머 기반 대규모 언어모델(LLM) 생성과 구동에서 나타나는 문제점 또한 간과할 수 없는 수준에 이르렀다.

GPT-4 훈련에 투입된 약 2만5000대의 NVIDIA A100 GPU가 2~3개월간 소비한 전력은 미국 평균 가정 약 120가구가 1년간 사용하는 전력량에 해당하는 1,287MWh이다. 이는 단순히 큰 숫자가 아니라, 현재 AI 개발 패러다임이 과도한 컴퓨팅 자원 소비와 막대한 에너지 소모로 인해 어쩌면 지속 가능하지 않다는 신호로 여겨진다.

음지현 청운대학교 사회적경제학과 겸임교수. [사진=음지현]음지현 청운대학교 사회적경제학과 겸임교수. [사진=음지현]

인공지능을 만들고 구동하는 필요한 데이터센터가 발생하는 열을 식히기 위해 또 전기가 필요하다는 사실을 익히 알려져 있는데, 기발한 아이디어랍시고 그 전기를 아끼기 위해 데이터센터를 바다에 빠뜨린다고 한다. 그 열 에너지는 없어지나. 열을 축적하는 바다는 영원히 그 데이터센터의 열을 감당할 수 있을까.

더욱 우려스러운 점은 이러한 막대한 자원 투입이 트랜스포머 아키텍처의 근본적인 구조적 특성에서 비롯된다는 사실이다. 트랜스포머에서 벗어나지 않는 이상 자원의 과도한 소비 지옥에서 벗어날 수 없다는 것이다. 2017년 'Attention is All You Need' 논문으로 등장한 트랜스포머는 혁신적이었지만, 셀프 어텐션 메커니즘이 갖는 O(n²) 계산 복잡도는 성능 향상을 위해 모델 크기를 키울수록 계산량이 기하급수적으로 증가하는 근본적 한계에서 벗어날 수는 없다.

올해 초 중국의 딥시크(DeepSeek)와 같은 기업들이 MoE(Mixture of Experts)나 FlashAttention-2 등의 최적화 기술을 통해 효율성을 상당히 개선한 모델을 발표하여 전 세계에 충격을 준 것을 기억할 것이다. 우리나라 LG의 엑사원은 2024년 11월에 이미 비슷한 성능을 구현했다. 그룹 내 테스트를 거치면서 신중을 기하다가 선수를 뺏겼다고 알려졌지만, 분명 주목할 만한 성과였다.

2, 3조 개의 파라미터를 가진 모델에서 실제 연산에는 230억 개 수준만 사용하도록 최적화한 것은 기술적으로 인상적인 것과 동시에 그 발상과 실제 구현은 칭찬받을 만하다. 최근 LG 인공지능 엑사원이 국내기업의 인공지능 전용 칩을 사용한다는 기사 또한 전기사용량과 발열을 줄이면서도 최적화 기술을 결합하여 차세대 인공지능 모델을 만들겠다는 발표도 환영할 만하다.

하지만 이러한 접근법들은 본질적으로 기존 패러다임 내에서의 점진적 개선에 그칠 수밖에 없다. 아무리 정교한 최적화를 적용하더라도 트랜스포머의 논리적 구조에서 기인한 과도한 자원 소비는 여전히 남아있을 것이며, 성능 향상을 위해서는 결국 모델 크기와 데이터양을 늘려야 한다는 스케일링 법칙의 제약에서 벗어나기 불가능하거나, 적어도 가까운 시일 내에는 극복하기 어려울 가능성이 크다.

전 세계적으로 LLM 개발이 가능한 기업이 20개 미만에 불과할 정도로 이 분야의 진입장벽을 높이는 근본적인 원인이기도 하다. 우리나라가 국가 예산 100조원을 투입하겠다는 계획을 세운 것도 개별 기업에서 이 정도의 리스크를 짊어지고 감당하는 것은 쉽지 않아 어쩌면 국가의 미래 비전을 좌우할지 모르는 인공지능 기술 확보에서 선진국을 따라잡을 수 없을지 모른다는 현실을 냉정하게 인정하면서도, 인공지능에서 선진국에 비해 뒤떨어지면 안 된다는 절박함에서 국가의 명운을 걸고 대응해야 한다는 결단이라고 평가한다.

트랜스포머에 기반한 거대 언어모델의 경쟁에서 선진국을 따라잡을 수 있도록 국가가 100조 예산 투입을 선언한 만큼 예산과 전문 인력의 효율적 운용을 통해 빠른 시일 내 현실화될 수 있는 방식으로 집행해야 한다. 그런데, 인공지능에서 우리보다 저만치 앞선 국가와 기업들이 가고 있는 방향 말고 다른 해법은 없을까. 바로 여기에서 새로운 인공지능에 대한 질문을 던져야 한다.

올바른 질문을 하면 문제의 상당 부분이 해결된다. 인류의 진보는 늘 그래 왔고, 우리 민족의 끈질김과 집중력은 인공지능 분야에서도 길을 찾아가리라 믿는다. 우리는 어떻게 해야 할까. 인공지능 선진국의 움직임을 면밀히 살펴보면 힌트를 찾을 수 있다.

첫 번째, 우리가 눈여겨보아야 할 것은 트랜스포머의 한계를 극복하기 위한 다양한 대안적 접근법들이 연구되고 있다는 사실이다.

Albert Gu가 2023년 제안한 Mamba는 상태 공간 모델(State Space Models)을 활용하여 O(n) 복잡도를 달성하면서도 어텐션 메커니즘을 대체할 수 있는 가능성을 제시했다. 이는 긴 시퀀스 처리에서 메모리 사용량을 대폭 감소시키면서도 학습 속도를 크게 개선할 수 있는 혁신적 접근법이다.

인간 뇌의 정보 처리 방식에서 영감을 받은 스파이킹 신경망(SNN) 같은 신경학적 영감 모델들도 에너지 효율성을 극대화할 수 있는 새로운 가능성을 보여주고 있다. 양자 컴퓨팅을 활용한 접근법은 특정 문제에서 지수적 속도 향상을 가능하게 할 수도 있다.

두 번째, 최근 메타(Meta)가 인공지능 엔지니어를 스카웃할 때 코딩 천재 컴퓨터 천재만이 아니라, 물리학 등의 박사급 인재들을 훨씬 더 많이 뽑았다는 사실이다.

MIT 연구진이 양자역학의 중첩 및 얽힘 현상을 AI 모델에 통합하는 연구를 진행하고 있고, DeepMind가 인간 뇌의 해마 영역 정보 처리 방식을 모사한 신경망을 개발하며, Stanford CSLI가 의미론적 모델링을 통해 맥락 이해 능력을 향상시키는 연구를 하는 것은 모두 다학제적 접근의 힘을 보여주는 사례들이다.

여기서 질문을 던져 본다. 인공지능 모델 자체의 혁신은 컴퓨터공학만의 이론 발전으로는 달성하기 어렵지 않다고 가정하면 어떨까.

미국 프린스턴 대학의 고등연구소(Institute for Advanced Study)에서는 매일 오후 3시에 '애프터눈 티'를 제공하는 전통이 있는데, 여기서 수학자 휴 몽고메리의 리만 제타함수의 비자명 근(nontrivail zeroes) 분포 특성을 우연히 들은 프리먼 다이슨이 그 분포와 양자역학 분야에서 무작위 행렬 이론(Random Matrix Theory)이 핵의 에너지 준위간 간격 분포와 매우 유사하다는 점을 알았다. 이 연결고리는 오늘날까지도 리만 가설을 증명하기 위한 가장 유망한 접근법 중 하나로 알려져 있다. 어쩌면, 이 일화에서 우리가 새로운 인공지능에 대하여 우리가 후발 주자로서 시도해 볼만한 접근을 시사해 주는 것이 아닐까.

철학, 인문학, 물리학, 천체물리학, 양자역학 등 다양한 분야의 박사급 인재들이 가진 독특한 관점과 방법론은 AI 연구에 전혀 새로운 창의적 접근법을 가져다줄 수 있다. 때로는 아마추어 대학생이나 대학원생의 참신한 아이디어가 기존 패러다임을 뒤흔들 수 있는 혁신의 씨앗이 될 수도 있다.

기존 GPU 투자를 통한 인프라 구축은 당연히 지속되어야 한다. 하지만 동시에 다른 나라와 기업들과 같은 방향에서만 경쟁할 것이 아니라, 근본적으로 다른 접근법을 통해 새로운 경쟁력을 확보해야 한다.

국책 연구기관의 역할을 재정립하고, 기업 간 건전한 경쟁을 유도하며, 참신하고 다양한 지식으로 무장한 인재들의 자유로운 '장' 또는 ‘플랫폼을 만들어주고, 창의적 아이디어를 발굴할 수 있는 경진대회 같은 이벤트를 만드는 것이 필요하다. 다양한 학문 분야의 인재들이 AI 연구에 참여할 수 있는 환경을 조성하는 것이 핵심이 될지도 모를 일이다. 100조를 '투자할 결심'을 했다면 그 다음엔 무엇을 해야 할까.

인공지능의 미래가 더 큰 모델을 만들고 더 많은 데이터를 처리하는 양적 확장에만 있지 않을 것이다. 인류가, 그리고 한민족이 어마어마한 자원을 소비하는 트랜스포머의 한계 내에서 발전을 멈출 리는 없을 것이다.

근본적으로 다른 사고방식과 접근법을 통해 자원 효율적이면서도 혁신적인 AI 모델을 개발하는 것, 그것이 우리가 추구해야 할 진정한 차세대 인공지능의 모습일 거라고 믿는다. 지금이야말로 패러다임 전환을 위한 과감한 투자와 다학제적 협력을 통해 인공지능 분야에서 새로운 지평을 열 기회다. 트랜스포머를 넘어서는 혁신적 아키텍처의 발견은 우리나라가 차세대 인공지능을 선도할 수 있다는 기술적 진보를 넘어 인류의 지속 가능한 미래를 위한 필수적 과제이다.

◇음지연 청운대학교 사회적경제학과 겸임교수는 서울대 경제학과를 졸업하고 인천대학교 일반대학원 행정학과 박사 과정을 수료했다. 동우너산업, 동원증권, 한국투자증권 등에 재직했으며 머니투데이가 선정한 '녹색 CEO' 16인에 이름을 올렸다. 특히 음 교수는 17대 대통령 인수위원회 기후변화 자원개발 TF 상임자문위원으로도 활동하기도 했다.










포토뉴스



Read Entire Article