-
컴퓨터 비전의 기초를 이미지 처리와 머신러닝 관점에서 다룬 입문 및 중급자를 위한 책임
- 핵심 개념에 집중하기 위해 각 챕터를 짧고 명확하게 구성함
-
딥러닝 혁명 이후 변화와 고전적 아이디어의 재구성 과정을 책 집필 경험과 함께 설명함
- 15개 파트로 이미지 처리, 신경망, 생성 모델, 시퀀스 처리, 씬 이해 등 컴퓨터 비전 전반의 주제 다룸
- 최신 연구 동향이나 특정 응용보다는 필수 이론과 직관 구축에 초점을 맞춘 구조임
서문
이 책에 대하여
- 이 책은 컴퓨터 비전의 핵심 주제들을 이미지 처리와 머신러닝의 시각에서 다룸
- 독자의 직관을 개발하기 위해 다양한 시각화 자료를 포함함
- 주요 독자층은 컴퓨터 비전에 입문하는 학부 및 대학원생이지만, 경험 많은 실무자에게도 유용함
- 원래는 방대한 내용을 목표로 했으나, 컴퓨터 비전 분야의 방대함 때문에 각 장을 5페이지 이내로 제한하여 핵심 개념에 집중함
- 짧은 책을 쓰겠다는 목표였지만 결국 분량이 많아진 경험을 솔직하게 공유함
책 집필의 과정
- 집필 시작 시 가졌던 의도와 실제 과정의 비선형성을 데이터로 보여주며, 완성까지 10년 이상 소요됨
- 집필 과정 중 딥러닝 혁명(2012년) 이 일어나 전통적 방법과 현대적 접근법의 융합 과정이 진행됨
- 초기 딥러닝의 인기로 인해 이전의 아이디어들이 잠시 잊혔으나, 시간이 지나면서 본질적 개념들이 재조명됨
- 집필 여정이 힘들었지만, 직접 다양한 예제와 실험을 하며 많은 배움을 얻었다고 언급함
- 컴퓨터 비전 및 AI 분야의 주요 사건들이 책 집필 시점과 함께 변화했음을 시각적으로 보여줌
책의 구조
- 컴퓨터 비전 분야는 지난 10여 년간 급격한 발전을 겪었으며, 현재 방식이 과거와 전혀 다른 듯 보이지만 역사적 연속성을 강조함
- 책 전체적으로 통일된 주제와 시각, 그리고 다양한 관점의 중요성을 반복적으로 다룸
- 책은 15개 파트로 구성되며, 각 파트가 컴퓨터 비전의 일관된 주제에 집중함
각 파트 소개
-
Part I: 컴퓨터 비전 문제에 대한 동기 부여와 사회적 맥락, 수학적 기초 소개
-
Part II: 이미지 생성 과정
-
Part III: 이미지 예시를 통한 머신러닝 기초 개념 설명
-
Part IV: 신호 및 이미지 처리 입문
-
Part V: 유용한 선형 필터(가우시안 커널, 이진 필터, 이미지 도함수, 라플라시안, 시간 필터) 및 응용
-
Part VI: 멀티스케일 이미지 표현
-
Part VII: 컴퓨터 비전을 위한 신경망(합성곱 신경망, 순환 신경망, 트랜스포머)
-
Part VIII: 이미지의 통계적 모델과 그래프 모델
-
Part IX: 생성 모델과 표현 학습(벡터 임베딩 등) 중심의 현대적 접근
-
Part X: 학습 기반 비전 시스템 구축 시 발생하는 도전 과제
-
Part XI: 3D 구조 재구성을 위한 기하학적 도구
-
Part XII: 시퀀스 처리 및 모션 측정
-
Part XIII: 씬 이해 및 객체 검출
-
Part XIV: 주니어 연구원을 위한 프레젠테이션, 논문 작성, 효과적인 연구 마인드에 대한 조언
-
Part XV: Part I에서 제시한 문제를 책에서 다룬 다양한 방법론으로 해결 시도
다루지 않는 내용
- 최신 컴퓨터 비전 최신 동향이나 다양한 실용적 응용 분야(형상 분석, 객체 추적, 동작 분석, 얼굴 인식 등)는 다루지 않음
- 이런 세부 응용은 학회 논문이나 전문 서적 참고가 더 효과적임
감사의 글
- 다양한 컴퓨터 비전 교육과 연구에 영향을 준 교수진·학생·동료들에게 감사를 표함
- 여러 학회의 강의 자료와 실험, 챕터별 지원, 표지 디자인 등 다양한 협력에 대한 구체적 감사 언급
- 각 저자가 가족 및 가까운 지인에게도 지속적 지원에 대해 감사를 표함
인용 정보
- 도서를 인용할 때 사용할 수 있는 BibTeX 양식을 제공함
강사진을 위한 리소스
- 도서 인쇄본은 MIT Press에서 구매 가능함
- 책과 연계된 강의 슬라이드를 온라인으로 제공함
참고 문헌
- 컴퓨터 비전, 머신러닝, 신호처리, 기하학, 시각 과학 등 관련 주요 고전 및 최신 서적 리스트 제공