흐름 매칭 및 확산 모델 소개
- MIT의 컴퓨터 과학 수업 6.S184는 확률 미분 방정식을 활용한 생성 AI에 대한 강의임.
- 확산 및 흐름 기반 모델은 이미지, 비디오, 음악 등 다양한 데이터 모달리티에서 생성 AI의 최첨단 기술로 자리잡고 있음.
- 이 강의는 이러한 모델의 수학적 기초를 처음부터 구축하는 것을 목표로 하며, 학생들은 수업이 끝날 때 장난감 이미지 확산 모델을 직접 구축하게 됨.
- 이 과정은 생성 AI의 이론과 실습을 원칙적으로 이해하고자 하는 학생들에게 이상적임.
강의 노트
- 강의 노트는 수업의 중심을 이루며, 모든 자료에 대한 독립적인 설명을 제공함.
- 강의 슬라이드는 시각적 보조 자료로 제공되며, 독립적인 자료는 아님.
강의
-
1강: 흐름 및 확산 모델
- 생성 모델 소개
- 일반 및 확률 미분 방정식
- 흐름 및 확산 모델에서 샘플링
-
2강: 훈련 목표 구축
- 조건부 및 주변 확률 경로
- 연속성 및 포커-플랑크 방정식
- 주변 벡터 필드 및 주변 점수 함수
-
3강: 흐름 및 확산 모델 훈련
- 흐름 매칭
- 점수 매칭
- 다양한 확산 모델 접근법
-
4강: 이미지 생성기 구축
- 가이드 및 조건부 생성
- 신경망 아키텍처
- 최첨단 모델 조사
-
5강: 생성 로봇공학
- Benjamin Burchfiel의 게스트 강의
- 대규모 행동 모델
- 로봇공학을 위한 확산 모델
-
6강: 생성 단백질 설계
- Jason Yim의 게스트 강의
- AI를 통한 새로운 단백질 설계
- 단백질 구조 생성을 위한 흐름 매칭
실습
- 수업과 함께 제공되는 3개의 실습이 있으며, 단계별로 흐름 매칭 및 확산 모델을 구축하는 실습을 제공함.
- 실습은 Google Colab에서 열어 진행할 수 있음.
강사
- Peter와 Ezra가 공동 강의하며, Tommi Jaakkola가 후원자 및 자문 역할을 맡고 있음.
- Peter Holderrieth는 박사 과정 학생이며, Ezra Erives는 공학 석사 과정 학생임.
사전 요구 사항
- 선형 대수, 실해석, 기본 확률 이론이 필요하며, Python과 PyTorch에 대한 경험이 있어야 함.
주의 사항
- 이 강의는 대규모 언어 모델(LLM)을 다루지 않음. LLM은 텍스트와 같은 이산 데이터를 포함하지만, 이 강의는 이미지, 비디오, 단백질 구조와 같은 연속 공간의 데이터를 중심으로 함.
감사의 말
- 이 강의는 여러 개인 및 조직의 지원 없이는 불가능했음.
- Tommi Jaakkola 교수, MIT EECS의 Lisa Bella, Ellen Reid, 그리고 많은 사람들에게 감사의 뜻을 전함.