삼각형 메시와 글로벌 일루미네이션을 활용한 Neural Rendering: RenderFormer

1 week ago 3

RenderFormer는 삼각형 메시 기반 씬에서 글로벌 일루미네이션 효과까지 직접 구현하는 뉴럴 렌더링 파이프라인임
개별 씬 별 별도 학습이나 미세 조정 과정이 필요하지 않음
렌더링을 시퀀스-투-시퀀스 변환으로 정의해, 삼각형 토큰을 픽셀 패치 토큰으로 직접 변환함
트랜스포머 기반으로 전체 파이프라인이 설계되며, 최소한의 사전 제약만 적용됨
래스터화나 레이트레이싱을 쓰지 않고 이미지를 생성함

소개

RenderFormer는 삼각형 기반 씬 표현에서 직접 이미지를 렌더링하는 뉴럴 파이프라인임
글로벌 일루미네이션 효과가 완전히 적용된 이미지를 출력함
씬마다 별도의 훈련 또는 파인튜닝이 필요 없는 구조로 동작함

접근 방식

기존의 물리 기반 렌더링 방식과는 달리, 렌더링을 시퀀스-투-시퀀스 변환 문제로 재정의함
- 삼각형 및 반사 특성을 담은 토큰 시퀀스를, 각각 작은 픽셀 패치로 변환된 출력 토큰 시퀀스로 변환함

파이프라인 구조

RenderFormer는 2단계 구조로 구성됨
- 뷰 독립적 단계: 삼각형-간 조명 전달 현상을 모델링함
- 뷰 종속적 단계: 광선 다발을 나타내는 토큰을 픽셀 값으로 변환함. 이때 앞선 단계의 삼각형 시퀀스가 가이드 역할을 수행함
두 단계 모두 트랜스포머 구조를 바탕으로 함
최소한의 사전 제약만을 부여해 학습함

기술적 특징

렌더링 시 래스터화, 레이트레이싱 등 전통적 방법을 전혀 사용하지 않음
트랜스포머의 시퀀스 변환 능력을 적극적으로 활용함

결론

기존 뉴럴 렌더링 기술 대비, 별도의 사전 준비나 씬별 조정 필요 없이 유연하고 고품질의 이미지를 생성하는 접근 방식임

Read Entire Article