-
RenderFormer는 삼각형 메시 기반 씬에서 글로벌 일루미네이션 효과까지 직접 구현하는 뉴럴 렌더링 파이프라인임
- 개별 씬 별 별도 학습이나 미세 조정 과정이 필요하지 않음
- 렌더링을 시퀀스-투-시퀀스 변환으로 정의해, 삼각형 토큰을 픽셀 패치 토큰으로 직접 변환함
-
트랜스포머 기반으로 전체 파이프라인이 설계되며, 최소한의 사전 제약만 적용됨
-
래스터화나 레이트레이싱을 쓰지 않고 이미지를 생성함
소개
- RenderFormer는 삼각형 기반 씬 표현에서 직접 이미지를 렌더링하는 뉴럴 파이프라인임
-
글로벌 일루미네이션 효과가 완전히 적용된 이미지를 출력함
- 씬마다 별도의 훈련 또는 파인튜닝이 필요 없는 구조로 동작함
접근 방식
- 기존의 물리 기반 렌더링 방식과는 달리, 렌더링을 시퀀스-투-시퀀스 변환 문제로 재정의함
- 삼각형 및 반사 특성을 담은 토큰 시퀀스를, 각각 작은 픽셀 패치로 변환된 출력 토큰 시퀀스로 변환함
파이프라인 구조
- RenderFormer는 2단계 구조로 구성됨
-
뷰 독립적 단계: 삼각형-간 조명 전달 현상을 모델링함
-
뷰 종속적 단계: 광선 다발을 나타내는 토큰을 픽셀 값으로 변환함. 이때 앞선 단계의 삼각형 시퀀스가 가이드 역할을 수행함
- 두 단계 모두 트랜스포머 구조를 바탕으로 함
- 최소한의 사전 제약만을 부여해 학습함
기술적 특징
- 렌더링 시 래스터화, 레이트레이싱 등 전통적 방법을 전혀 사용하지 않음
- 트랜스포머의 시퀀스 변환 능력을 적극적으로 활용함
결론
-
기존 뉴럴 렌더링 기술 대비, 별도의 사전 준비나 씬별 조정 필요 없이 유연하고 고품질의 이미지를 생성하는 접근 방식임