MIT 6.S184: 플로우 매칭 및 디퓨전 모델 입문

1 month ago 14

흐름 매칭 및 확산 모델 소개

MIT의 컴퓨터 과학 수업 6.S184는 확률 미분 방정식을 활용한 생성 AI에 대한 강의임.
확산 및 흐름 기반 모델은 이미지, 비디오, 음악 등 다양한 데이터 모달리티에서 생성 AI의 최첨단 기술로 자리잡고 있음.
이 강의는 이러한 모델의 수학적 기초를 처음부터 구축하는 것을 목표로 하며, 학생들은 수업이 끝날 때 장난감 이미지 확산 모델을 직접 구축하게 됨.
이 과정은 생성 AI의 이론과 실습을 원칙적으로 이해하고자 하는 학생들에게 이상적임.

강의 노트

강의 노트는 수업의 중심을 이루며, 모든 자료에 대한 독립적인 설명을 제공함.
강의 슬라이드는 시각적 보조 자료로 제공되며, 독립적인 자료는 아님.

강의

1강: 흐름 및 확산 모델
- 생성 모델 소개
- 일반 및 확률 미분 방정식
- 흐름 및 확산 모델에서 샘플링
2강: 훈련 목표 구축
- 조건부 및 주변 확률 경로
- 연속성 및 포커-플랑크 방정식
- 주변 벡터 필드 및 주변 점수 함수
3강: 흐름 및 확산 모델 훈련
- 흐름 매칭
- 점수 매칭
- 다양한 확산 모델 접근법
4강: 이미지 생성기 구축
- 가이드 및 조건부 생성
- 신경망 아키텍처
- 최첨단 모델 조사
5강: 생성 로봇공학
- Benjamin Burchfiel의 게스트 강의
- 대규모 행동 모델
- 로봇공학을 위한 확산 모델
6강: 생성 단백질 설계
- Jason Yim의 게스트 강의
- AI를 통한 새로운 단백질 설계
- 단백질 구조 생성을 위한 흐름 매칭

실습

수업과 함께 제공되는 3개의 실습이 있으며, 단계별로 흐름 매칭 및 확산 모델을 구축하는 실습을 제공함.
실습은 Google Colab에서 열어 진행할 수 있음.

강사

Peter와 Ezra가 공동 강의하며, Tommi Jaakkola가 후원자 및 자문 역할을 맡고 있음.
Peter Holderrieth는 박사 과정 학생이며, Ezra Erives는 공학 석사 과정 학생임.

사전 요구 사항

선형 대수, 실해석, 기본 확률 이론이 필요하며, Python과 PyTorch에 대한 경험이 있어야 함.

주의 사항

이 강의는 대규모 언어 모델(LLM)을 다루지 않음. LLM은 텍스트와 같은 이산 데이터를 포함하지만, 이 강의는 이미지, 비디오, 단백질 구조와 같은 연속 공간의 데이터를 중심으로 함.

감사의 말

이 강의는 여러 개인 및 조직의 지원 없이는 불가능했음.
Tommi Jaakkola 교수, MIT EECS의 Lisa Bella, Ellen Reid, 그리고 많은 사람들에게 감사의 뜻을 전함.

Read Entire Article