-
Voyager는 입력 이미지와 사용자가 지정한 카메라 경로를 기반으로 일관된 3D 포인트 클라우드 시퀀스를 생성하는 새로운 비디오 확산 프레임워크임
- RGB와 심도 정보를 동시에 생성해 효율적이고 직접적인 3D 재구성이 가능함
-
대규모 동영상 데이터셋 생성 파이프라인을 도입해 수작업 3D 주석 없이 다채로운 훈련 데이터를 확보함
-
WorldScore 벤치마크에서 기존 여러 모델 대비 3D 일관성, 콘텐츠 정렬 등 다양한 항목에서 우수한 성능을 보임
-
단일 또는 다중 GPU에서 최적화된 병렬 추론 지원 및 실시간 데모를 통해 다양한 응용 가능성을 보여줌
프로젝트 소개
-
HunyuanWorld-Voyager는 입력 이미지와 사용자가 지정한 카메라 이동 경로를 기반으로 세계 일관성(3D-Consistent)의 포인트 클라우드 비디오 시퀀스를 생성함
- 사용자는 자유롭게 카메라 경로를 설정하여 월드 익스플로레이션을 위한 3D 씬 비디오를 만들 수 있음
-
RGB와 깊이(Depth) 비디오를 동시에 맞춤 생성하여, 빠르고 신뢰도 높은 3D 재구성이 가능함
아키텍처
- Voyager는 두 가지 핵심 구성 요소로 설계됨
- (1) 세계 일관성 비디오 확산구조: 전역적 씬 일관성을 보장하며, RGB와 심도를 정렬된 상태로 동시에 생성함
- (2) 장거리 월드 익스플로레이션: 포인트 컬링과 자동 회귀 추론, 부드러운 비디오 샘플링을 활용한 문맥-일관적 씬 확장 지원
데이터 엔진
- Voyager 학습을 위해 비디오 재구성 파이프라인 기반의 확장형 데이터 엔진을 별도 설계함
- 임의의 일반 동영상에 대해 카메라 포즈 추정 및 미터기반 깊이 예측을 자동화해, 수작업 없는 대규모 훈련 데이터셋 생성 가능
- 실제 촬영 영상 및 Unreal Engine 기반 합성 데이터 등을 포함, 10만 개 이상의 동영상 클립으로 구성된 데이터셋 제공
주요 기능 및 데모
-
카메라 경로 제어 기반 인터랙티브 비디오 생성 데모 제공
- 생성된 비디오와 연동된 3D 포인트 클라우드 즉시 재구성 가능
- 단일 이미지로부터 3D 장면 생성, 비디오-딥스 추정 다양한 활용 시나리오 시연
성능 비교
-
WorldScore 벤치마크에서 평가
- Voyager는 여러 카테고리(카메라 제어, 오브젝트 제어, 콘텐츠 정렬, 3D 일관성 등)에서 최상위권 성능을 기록함
- 특히 주관적 품질(Subjective Quality) , 3D 일관성 부문에서 가장 높은 점수 획득
시스템 요구사항
- 단일 80GB GPU에서 540p 해상도 영상 생성 시 최소 60GB 메모리 필요
- Linux 운영체제 및 CUDA 12.4(권장 80GB 이상) 환경에서 최적 성능 제공
병렬 추론 성능
-
xDiT 기반 다중 GPU 병렬 추론 지원
- 8개의 H20 GPU 사용 시, 49프레임 50스텝(512x768) 기준 288초에 결과 생성(단일 GPU 대비 6.69배 가속)
유저 인터페이스 및 데모
-
Gradio 기반 실시간 데모 제공
- 이미지 업로드, 카메라 방향 선택, 프롬프트 텍스트 입력으로 RGB-D 비디오 간편 생성 가능
데이터 엔진 공개
- RGB-D 비디오 훈련용 대규모 확장 가능한 데이터 생성 엔진도 오픈소스로 제공함
인용 및 참고
- 아카이브 논문: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
- 다양한 오픈소스(VGGT, MoGE, Metric3D 등) 기반 연구 성과를 바탕으로 HunyuanWorld-Voyager 설계 및 구현함
프로젝트 주요 가치와 차별점
- Voyager는 단일 이미지로 세계 일관성 있는 3D-비디오(포인트 클라우드 기반) 를 다채로운 경로로 출력할 수 있는 점이 기존 대다수 이미지-투-비디오 생성 프로젝트 대비 강점임
- RGB와 깊이 정보 모두를 생성하고, 대규모 자동화 데이터 엔진을 함께 제공함으로써, 실제 3D 콘텐츠 생성이나 가상 환경 제작, 디지털 트윈, AIGC 응용 등 다양한 산업에서 활용 가능성이 큼