BERT는 단일 텍스트 디퓨전 단계일 뿐임

12 hours ago 1

  • BERT와 RoBERTa와 같은 마스크드 언어 모델도 텍스트 디퓨전 모델 개념으로 해석 가능함
  • 기존 Auto-regressive(예: GPT)와 달리, 블록 단위 생성 및 점진적 복원 방식 적용 가능성 입증됨
  • 마스킹 비율을 단계별로 조절하며 훈련하면 RoBERTa도 자연스러운 텍스트 생성이 가능함을 실험으로 확인함
  • 기존 구조 변화 없이 훈련 목표만 조정해도 생성 능력 확보 가능함
  • GPT-2와 비교시, RoBERTa 기반 디퓨전 모델도 일정 수준 일관된 텍스트 생성 결과 도출함

개요

Google DeepMind에서 공개한 Gemini Diffusion는 기존의 GPT 계열과 달리 텍스트를 한 번에 블록 단위로 생성하는 디퓨전 기반 언어 모델임. 이 방식은 점진적으로 랜덤 노이즈를 정제해 텍스트를 만드는 접근임. 관련 논문(Large Language Diffusion Models)을 살펴본 결과, 이산적 언어 디퓨전은 마스크드 언어 모델링(MLM) 의 일반화라는 사실을 확인함. 즉, 이러한 아이디어를 이용해 BERT 계열 모델에서도 텍스트 생성이 가능할지 실험적으로 탐구하였음.

참고: 이후 DiffusionBERT 논문은 유사한 아이디어에 대해 더 엄격하게 검증함.

트랜스포머 간단 역사

2017년 처음 제안된 Transformer는 인코더-디코더 구조였음. 2018년에는 인코더(BERT: bidirectional, 마스크드 복원 중심)와 디코더(GPT: autoregressive, 순차 예측 중심)가 분리되어 각각 특화 모델군이 등장함.

  • 인코더 전용(BERT 계열)
    • 전체 문맥을 입력받아 특정 부분을 <MASK>로 가리고 나머지로 복원
    • 문장 표현, 분류 등에서 성능 강점
  • 디코더 전용(GPT 계열)
    • 주어진 순서에서 다음 토큰을 예측
    • 생성, 요약, 번역 등에서 두각

BERT는 분류 등에 바로 활용되었지만, 이후 GPT 계열이 생성 능력 향상으로 더욱 다양한 사용처를 확보함.

이산적 언어 디퓨전 모델

디퓨전 모델은 원래 이미지 생성에서 대중화됨.
이미지의 경우:

  • 순방향 프로세스: 깨끗한 이미지에 점차 가우시안 노이즈 추가해 순수 노이즈 상태 도달
  • 역방향 프로세스: 딥러닝 모델로 점진적 디노이즈 반복, 원본 데이터 복원

텍스트에 적용 시, 가장 단순한 방법은 마스킹 기반 노이즈 과정임.

  • 순방향(마스킹)
    • t=0에서 원본 텍스트, 단계가 증가할수록 일부 토큰을 <MASK>로 무작위 대체
    • 최종 단계에서는 전부 <MASK>로 채움
  • 역방향(디노이즈)
    • 트랜스포머 인코더가 주어진 마스킹 설정에서 원본 토큰 복원 학습
    • 낮은 마스킹 비율이면 쉽고 비율이 커질수록 어려운 복원
    • 높은 마스킹 비율부터 낮은 비율 순으로 반복해 전체 시퀀스 생성 가능

이런 디퓨전 프레임워크에서 모델은 다양한 마스킹 비율 단계별로 디노이즈 손실을 합산해 학습함. BERT의 마스킹 복원 목표는 사실상 텍스트 디퓨전의 일부임. 마스킹 비율 스케줄과 반복 디노이즈를 조합하면 BERT의 목표를 자연어 생성 프로시저로 확장할 수 있음.

RoBERTa Diffusion 실험

RoBERTa는 2019년에 발표된 BERT의 하이퍼파라미터 및 데이터 확장, 좀 더 단순한 학습 목적(MLM Only)이 특징임.
실험에서는 HuggingFace transformers, datasets 라이브러리를 이용해 RoBERTa 기본 가중치, 토크나이저, Trainer를 사용.
WikiText 데이터셋을 기반으로 아래와 같은 과정으로 파인튜닝 진행:

  • 10단계 디퓨전 스케줄(mask_probs: 1.0~0.1) 중 하나를 각 배치마다 샘플링하여 마스킹
  • 커스텀 diffusion_collator로 마스킹 확률 선정 후, 각 토큰마다 확률적으로 <MASK> 적용
  • 프롬프트 컨텍스트 유지를 위해 처음 16개 토큰은 항상 보존

데이터 마스킹(커스텀 collator):

  • 각 예제 토큰 묶음을 패딩 후, 마스킹 확률 무작위 선택
  • 처음 16개 토큰을 제외한 나머지에 확률적으로 <MASK> 적용
  • 마스킹된 데이터와 정답 레이블 세트 반환

생성(inference):

  • 256 토큰 길이 시퀀스 입력, 처음 16 토큰은 프롬프트, 나머지는 <MASK>
  • 각 단계별로 모델이 예측한 토큰을 샘플링하여 채우고, 또 일정 비율은 다시 리마스킹
  • 점차 마스킹 비율 줄여가며 반복, 마지막엔 전체가 복원됨

예시 생성 결과:

  • 프롬프트와 자연스러운 후속 텍스트를 포함해, 실제로 꽤 일관성 있는 텍스트가 생성됨
  • 몇몇 특이점은 WikiText 데이터 전처리 형식(예: @-@ 하이픈) 때문임

GPT-2와 비교

  • GPT-2가 약간 더 빠르고 일관성도 높지만, RoBERTa Diffusion도 기대 이상 성능 보임(증분적 개선 가능성 높음)
  • 새로운 AR-Diffusion, Skip-Step Diffusion 방식 및 최적화로 품질/속도 향상 가능

결론

  • RoBERTa처럼 설계된 마스크드 언어 모델도, 마스킹 비율을 조절해가며 훈련하면 자연어 생성 엔진이 될 수 있음
  • <MASK> 토큰으로 텍스트를 점진적 손상/복원하는 학습 방식만으로도 완전히 생성적 모델로 변환 가능성 확인
  • 구조 자체를 바꾸지 않고, 훈련 목표의 변형만으로 생성 능력 확보 가능함
  • 결국 BERT 계열 모델 또한, 본질적으로는 하나의 텍스트 디퓨전 모델과 일치함

Read Entire Article