BERT는 텍스트 디퓨전 모델이었다: RoBERTa로 30분 만에 만든 생성 AI

10 hours ago 1

2018년부터 사용해온 BERT의 학습 방식이 사실 최신 디퓨전 모델과 같은 원리였다는 사실이 밝혀졌습니다. 이는 단순한 학술적 발견을 넘어, 기존 BERT 모델을 GPT처럼 텍스트를 생성하는 모델로 전환할 수 있다는 실용적 가능성을 보여줍니다.

핵심 포인트:

  • BERT의 마스크 언어 모델링(MLM)은 고정된 비율의 디퓨전 과정: 7년간 사용해온 BERT의 학습 방식이 사실 노이즈 제거 방식의 디퓨전과 동일한 원리. 마스킹 비율을 가변적으로 조정하면 완전한 생성 모델로 전환 가능
  • 30분 학습만으로 GPT-2 수준의 텍스트 생성 구현: 기존 RoBERTa 모델을 약간의 파인튜닝으로 텍스트 생성 모델로 전환. 단어를 하나씩 예측하는 GPT 방식과 달리 전체 문장을 점진적으로 복원하는 방식으로 작동
  • 텍스트 생성의 새로운 가능성: GPT의 자기회귀 방식 외에 디퓨전 기반 생성이라는 대안적 접근법 제시. 구글 DeepMind의 Gemini Diffusion 등 새로운 흐름의 시작

Read Entire Article