MIT 6.S184: 플로우 매칭 및 디퓨전 모델 입문

1 week ago 5

흐름 매칭 및 확산 모델 소개

  • MIT의 컴퓨터 과학 수업 6.S184는 확률 미분 방정식을 활용한 생성 AI에 대한 강의임.
  • 확산 및 흐름 기반 모델은 이미지, 비디오, 음악 등 다양한 데이터 모달리티에서 생성 AI의 최첨단 기술로 자리잡고 있음.
  • 이 강의는 이러한 모델의 수학적 기초를 처음부터 구축하는 것을 목표로 하며, 학생들은 수업이 끝날 때 장난감 이미지 확산 모델을 직접 구축하게 됨.
  • 이 과정은 생성 AI의 이론과 실습을 원칙적으로 이해하고자 하는 학생들에게 이상적임.

강의 노트

  • 강의 노트는 수업의 중심을 이루며, 모든 자료에 대한 독립적인 설명을 제공함.
  • 강의 슬라이드는 시각적 보조 자료로 제공되며, 독립적인 자료는 아님.

강의

  • 1강: 흐름 및 확산 모델

    • 생성 모델 소개
    • 일반 및 확률 미분 방정식
    • 흐름 및 확산 모델에서 샘플링
  • 2강: 훈련 목표 구축

    • 조건부 및 주변 확률 경로
    • 연속성 및 포커-플랑크 방정식
    • 주변 벡터 필드 및 주변 점수 함수
  • 3강: 흐름 및 확산 모델 훈련

    • 흐름 매칭
    • 점수 매칭
    • 다양한 확산 모델 접근법
  • 4강: 이미지 생성기 구축

    • 가이드 및 조건부 생성
    • 신경망 아키텍처
    • 최첨단 모델 조사
  • 5강: 생성 로봇공학

    • Benjamin Burchfiel의 게스트 강의
    • 대규모 행동 모델
    • 로봇공학을 위한 확산 모델
  • 6강: 생성 단백질 설계

    • Jason Yim의 게스트 강의
    • AI를 통한 새로운 단백질 설계
    • 단백질 구조 생성을 위한 흐름 매칭

실습

  • 수업과 함께 제공되는 3개의 실습이 있으며, 단계별로 흐름 매칭 및 확산 모델을 구축하는 실습을 제공함.
  • 실습은 Google Colab에서 열어 진행할 수 있음.

강사

  • Peter와 Ezra가 공동 강의하며, Tommi Jaakkola가 후원자 및 자문 역할을 맡고 있음.
  • Peter Holderrieth는 박사 과정 학생이며, Ezra Erives는 공학 석사 과정 학생임.

사전 요구 사항

  • 선형 대수, 실해석, 기본 확률 이론이 필요하며, Python과 PyTorch에 대한 경험이 있어야 함.

주의 사항

  • 이 강의는 대규모 언어 모델(LLM)을 다루지 않음. LLM은 텍스트와 같은 이산 데이터를 포함하지만, 이 강의는 이미지, 비디오, 단백질 구조와 같은 연속 공간의 데이터를 중심으로 함.

감사의 말

  • 이 강의는 여러 개인 및 조직의 지원 없이는 불가능했음.
  • Tommi Jaakkola 교수, MIT EECS의 Lisa Bella, Ellen Reid, 그리고 많은 사람들에게 감사의 뜻을 전함.

Read Entire Article