모든 AI 모델이 동일할 수 있음

1 week ago 8

  • Platonic Representation Hypothesis(이데아 표현 가설) 은 AI 모델들이 점점 커지고 똑똑해질수록 내부적으로 유사한 표현 공간으로 수렴함을 주장함
  • 언어 모델의 압축(compression) 개념을 통해, 지능을 데이터 압축력으로 해석하고, 모델이 일반화할 때 방법의 유사성이 높아짐을 설명함
  • 임베딩 역변환(embedding inversion) 문제를 분석하며, PRH에 의하면 서로 다른 모델 간 임베딩 공간을 CycleGAN 등으로 정렬할 수 있음
  • Sparse Autoencoder 실험 등에서 서로 매우 다른 네트워크가 동일하거나 유사한 개념 및 회로를 발견함을 보여줌
  • 이러한 통찰로 고대 미해독 문자나 동물 언어 해독 등 실질적 응용 가능성이 높아짐

서론: Mussolini 또는 Bread 게임과 의미 공유

  • 필자는 "Mussolini 혹은 Bread"라는 게임을 예로 들어, 질문을 반복적으로 좁혀가며 상대방이 생각하는 대상을 추론하는 방식을 소개함
  • 이 게임이 가능한 이유는 사람들 사이의 공통 의미 공간(semantics) 이 존재함에 있음
  • 다양한 사람이 규칙 없이도 대체로 의미상의 '가까움'을 직관적으로 이해함을 강조함

보편 의미론: 세상과 모델의 압축

  • 이 게임처럼, 인간 두뇌는 현실 세계의 복잡한 모델을 비슷한 방식으로 구축함
  • 알고리듬적 관점에서 AI는 세상 데이터를 최대한 압축해 학습함
  • 자연어 생성작업은 곧 확률 분포를 기반으로 한 압축 작업으로 볼 수 있음(Shannon의 정보 이론)
  • 모델이 데이터를 잘 압축할수록 실제 세계를 더 깊이 이해함을 시사함
  • 실제로 더 큰 언어 모델은 더 나은 데이터 압축 능력과 더 높은 지능을 보임
  • 데이터셋이 너무 커서 개별 데이터 포인트 기억이 불가능해질 때, 모델은 데이터를 결합해 일반화를 시작함

Platonic Representation Hypothesis(이데아 표현 가설)

  • MIT 연구진은 "Platonic Representation Hypothesis" 를 2024년에 공식화함
  • 이 가설에 따르면, AI 모델 규모가 커질수록 공유되는 특성(feature) 이 늘어나며, 표현 공간이 유사하게 정렬
  • 이는 언어 및 시각 등 다양한 영역에서 실험적으로 관찰되고 있음
  • 매년 모델이 더 커지고 효율적으로 발전함에 따라, 모델 간 표현 공간 유사성이 계속 높아질 것이라 전망됨

임베딩 역변환(embedding inversion) 문제

  • 필자는 임베딩 벡터에서 실제 입력 텍스트를 거꾸로 추론하는 임베딩 역변환 문제 연구 경험을 설명함
  • 이미 ImageNet 등에서는 확률값만으로 원본 이미지에 근접한 정보를 복원하는 사례가 있었음
  • 자연어 임베딩은 정보량이 많아 보이지만, 유사 텍스트가 유사 임베딩을 갖기 때문에 명확한 역추론이 매우 어려움
  • 이에 대해 반복적인 임베딩 탐색 및 최적화로 점점 더 정확한 텍스트에 접근하는 iterative refinement 기법이 효과적임을 확인함
  • 해당 방식으로 장문 문장 수준에서 94% 이상 정확도로 역변환 가능성을 실증함

이데아 가설을 이용한 임베딩 역변환 보편화

  • 그러나 기존 방법은 특정 임베딩 모델에만 적용 가능하며, 새로운 모델이나 사설 모델에는 한계가 있었음
  • PRH가 옳다면, 다양한 모델 사이에서도 보편 임베딩 역변환기를 만들 수 있음
  • 쌍을 알 수 없는 서로 다른 임베딩 집합(A, B)이 주어질 때, CycleGAN 방식으로 공간 정렬이 가능함을 수년간 연구함
  • 결과적으로 별도의 파인튜닝 없이도 두 임베딩 공간 사이를 unsupervised matching 방식으로 변환하는 데 성공함(vec2vec)
  • 이를 통해 각 임베딩별 개별 정보 없이도 임의 데이터베이스 임베딩을 번역하거나 거꾸로 추론하는 것이 가능함을 실증함

기계 해석 가능성: Universal Circuits

  • 기계해석(Mechanistic Interpretability) 분야의 회로 해석 연구에서도 모델 구조가 달라도 공통적인 내부 기능이 발견됨
  • Sparse Autoencoder(SAE) 적용 결과, 서로 다른 모델에 대해 독립적으로 학습하더라도 해석 가능한 피처(feature) 에서 상당히 큰 중복성을 확인함
  • 두 SAE의 피처를 비교해 교차 모델 개념 정렬이 가능
  • PRH가 더욱 정확하다면, 더 강력한 모델일수록 이 현상이 두드러질 것으로 기대됨

실제적 함의 및 전망

  • 이데아 표현 가설은 심오한 철학적 함의 외에도 실제 모델 해석, 역변환, 신호 해독, 언어 복원 등 실용적 가능성이 있음
  • 향후 해석 기법이 발전하면, 더 큰 모델일수록 표현 공간 정렬내부 공통성 발견이 흔해질 것으로 예측됨
  • 해결이 불가능했던 고대 문자(Linear A) 해독이나 동물 언어(고래 음성 등) 해석도 향후 이루어질 가능성이 있음
  • vec2vec 등 현재 방식은 아직 취약점도 있지만, 인터넷 기반 및 이미지-텍스트 임베딩 등에서는 상당한 성공을 보임
  • 언어 간 공간 전환 및 고래 언어→인간 언어 변환도 미래 해독 가능성이 존재함을 시사함

Read Entire Article