LLMs에 "뇌퇴화(brain rot)" 현상 발생 가능성

11 hours ago 1

  • LLM Brain Rot 가설에 따르면, 낮은 품질의 웹 텍스트에 지속적으로 노출되면 LLM은 인지 능력 저하를 겪음
  • 실험 결과, 저품질 데이터로 추가 학습한 LLM에서 추론·장문 이해·안전성 저하 및 “어두운 특성" 증가 효과를 관찰함
  • Junk 데이터 비중이 늘어날수록 인지 능력 감소 현상 심화됨
  • 오류 분석에서 주요 현상은 사고 생략(이유 추론 과정 건너뜀)으로 나타남
  • 고품질 데이터와 튜닝으로 일부 복구 가능하나, 완전한 회복은 어려움

연구 개요

  • 본 연구에서는 LLM Brain Rot Hypothesis(뇌 퇴화 가설) 을 제안 및 검증함
  • 저품질(junk) 웹 텍스트에 LLM(대형 언어 모델)이 지속적으로 노출될 때, 인지 능력이 장기적으로 저하되는지 실험적으로 관찰함
  • 원인 분리 및 효과 확인을 위해, Twitter/X 원본 데이터셋을 기반으로 오염 데이터(junk)와 대조군 데이터를 두 가지 방식(** M1: 참여도 기준, M2: 의미 품질 기준**)으로 구성하여 비교함
  • 두 방식은 토큰 수 및 훈련 조건이 일치하도록 맞춰, 데이터 품질 변화만 독립 변수로 설정함

주요 실험 결과

  • 4개 LLM에 대해 저품질 데이터로 추가 pre-training을 진행하자, 추론, 장문 맥락 이해, 안전성 등 인지 능력 저하 현상이 지표상으로 뚜렷하게 관찰됨
    • “어두운 특성”(psychopathy, narcissism 등) 점수 상승 효과도 동반함
  • 예: M1 설정에서, Chain Of Thoughts 기반 ARC-Challenge 지표 74.9 → 57.2로, RULER-CWE 84.4 → 52.3로 감소하는 등, junk 데이터 비율이 높아질수록 점수 하락이 두드러짐
  • 점진적으로 junk 데이터 비중을 높일수록, 인지 능력의 감퇴 정도도 비례해서 심해지는 '용량 반응(dose-response)' 현상 확인됨

오류 원인 분석

  • 사고 과정 생략(thought-skipping) 경향이 주요 퇴화 패턴으로 나타남
    • LLM은 추론 과정을 점점 더 생략 혹은 건너뛰어 오류 발생이 늘어남
  • 부분적 복구: instruction tuning, 고품질 데이터로 재학습하면 인지저하가 상당부분 회복되지만, baseline 수준으로 복원이 어렵고, 이는 형식 불일치가 아니라 표상(Representation) 변화 때문임을 시사함
  • 스타일보단 인기도: 트윗 인기(비-의미 기반 지표)가 M1에서는 뇌퇴화 영향 측정에 더욱 강한 신호임

결론 및 시사점

  • 데이터 품질이 LLM 능력 저하의 주요 원인임을 다각도로 입증함
  • LLM 지속 재학습에서 데이터 큐레이션을 “훈련 단계의 안전성” 문제로 재정의함
  • 운영 중인 LLM에 대해 주기적인 “인지 건강 검사” 실시의 필요성을 권고함

Read Entire Article