FFT의 반격: Self-Attention에 대한 효율적인 대안

2 weeks ago 2

  • 기존 Self-Attention 메커니즘은 O(n²) 의 복잡도를 가지며, 긴 시퀀스에 대한 확장성이 제한적임
  • 본 논문에서는 Fast Fourier Transform(FFT) 을 활용한 FFTNet을 제안함
  • FFTNet은 O(n log n) 의 시간 복잡도로 글로벌 토큰 혼합을 수행
  • 주파수 도메인에서 학습 가능한 스펙트럴 필터modReLU 활성화 함수를 도입하여 중요한 주파수 성분을 강조함
  • Long Range Arena(LRA) 및 ImageNet 벤치마크 실험에서 기존 Self-Attention 및 고정된 Fourier 변환 모델보다 우수한 성능을 보임

관련 연구

  • Self-Attention의 복잡도 : Transformer 모델은 O(n²) 의 연산량이 필요하여 긴 시퀀스 처리에 비효율적임
  • Fourier 기반 접근법 : FNet과 같은 모델은 고정된 Fourier 변환을 활용하여 연산량을 줄였으나, 입력 적응성이 부족함
  • 선형, 희소 및 저차원 근사 기법 : Performer, Linformer, BigBird 등의 연구가 Self-Attention의 연산을 근사하는 방법을 제안함
  • 직교 행렬 분해 기법 : 직교 변환(DFT 포함) 을 활용하면 모델 학습 안정성이 향상됨
  • 적응형 스펙트럴 필터링 : FFT 기반 변환에 학습 가능한 필터를 추가하여 기존 방식보다 더 유연하고 표현력이 높음

FFTNet: 적응형 스펙트럴 필터링 기법

동기

  • Self-Attention은 O(n²) 의 복잡도를 가지며 긴 시퀀스에서 비효율적임
  • FFT는 O(n log n) 으로 동작하며 글로벌 상호작용을 효율적으로 인코딩 가능

방법론

  • Fourier 변환 (FFT 적용)
    • 입력 시퀀스를 주파수 도메인으로 변환하여 전역적 의존성을 효율적으로 캡처
  • 적응형 스펙트럴 필터 적용
    • 전역 컨텍스트 벡터를 활용하여 학습 가능한 필터를 생성하고, 중요한 주파수 대역을 동적으로 강조
  • modReLU 비선형 활성화
    • 복소수 주파수 도메인에서 ReLU 기반 활성화 적용하여 표현력을 증가
  • 역 Fourier 변환 (IFFT)
    • 변환된 데이터에 대해 필터링 및 활성화를 적용한 후 다시 시간 도메인으로 변환

FFTNet의 이론적 근거

  • O(n log n)의 연산량으로 글로벌 토큰 혼합 가능
  • 적응형 Attention: 주파수 도메인에서 학습 가능한 필터가 주어진 입력에 따라 주파수를 조정
  • 비선형 활성화의 표현력 강화: modReLU 적용으로 단순 선형 변환을 넘어선 고차원 패턴 학습 가능
  • Parseval's theorem 기반 안정성 보장: 신호의 에너지를 보존하여 정보 손실을 최소화

실험 결과

Long Range Arena (LRA) 벤치마크

  • FFTNet은 Transformer 및 FNet보다 전반적으로 더 높은 정확도를 기록함
  • 특히 ListOps, Text, Retrieval, Image, Pathfinder 태스크에서 더 좋은 성능을 보이며, 평균적으로 가장 높은 점수를 기록함
  • Transformer는 일부 태스크에서 높은 성능을 보였으나, 장기적인 의존성을 처리하는 데 한계를 가짐
  • FNet은 FFT를 활용하지만, 고정된 변환 방식이 적응성이 부족하여 전반적으로 낮은 성능을 보임
  • 특히 Path-X 태스크에서는 Transformer가 메모리 초과(OOM)로 실패한 반면, FFTNet은 안정적인 성능을 보였음

ImageNet 분류 실험

  • FFTNet 기반 Vision Transformer(FFTNetViT)는 기존 ViT와 유사한 정확도를 유지하면서 연산량(FLOPs)을 크게 줄이는 데 성공함
  • Base 모델의 경우, FFTNetViT는 ViT보다 약 38% 적은 FLOPs를 사용하면서도 정확도가 소폭 증가함
  • Large 및 Huge 모델에서도 FFTNetViT는 ViT 대비 낮은 연산량으로 유사한 성능을 유지함
  • 이를 통해 FFTNetViT가 높은 계산 효율성을 제공한다는 점을 확인할 수 있음

Ablation Study (구성 요소별 중요도 분석)

  • FFTNet의 다양한 요소를 제거하며 모델의 성능에 미치는 영향을 분석함
  • FFTNet의 주요 구성 요소를 제거할수록 정확도가 감소하는 경향을 보임
    • 스펙트럴 게이팅 제거: 특정 주파수를 강조하는 기능이 사라지면서 정확도가 소폭 하락함
    • 적응형 모듈 제거: 입력에 따라 필터를 동적으로 조정하는 기능이 사라져 정확도가 더 낮아짐
    • FFT 대신 합성곱 사용: 글로벌 정보를 효율적으로 혼합하는 기능이 사라져 가장 큰 성능 저하가 발생함
  • 이를 통해 FFTNet의 각 요소가 성능 향상에 중요한 역할을 한다는 점을 확인할 수 있음

결론

  • FFTNet은 Self-Attention보다 연산 효율성이 뛰어난 대안
  • 주파수 도메인에서 적응형 스펙트럴 필터와 modReLU를 결합하여 강력한 표현력을 제공
  • 실험 결과, LRA 및 ImageNet에서 기존 Self-Attention 모델보다 성능 및 효율성 우수
  • O(n log n) 복잡도를 유지하면서도 Self-Attention 수준의 성능을 제공하여 긴 시퀀스 처리에 유리함
  • FFTNet을 기반으로 한 Vision Transformer(FFTNetViT)도 낮은 FLOPs로 ViT와 비슷한 성능 달성

Read Entire Article