-
SHARP는 단일 이미지를 입력받아 3D 가우시안 표현으로 변환해 사실적인 3D 뷰를 생성하는 모델
- 표준 GPU에서 1초 미만의 시간에 단일 신경망 추론으로 3D 장면 파라미터를 예측
- 생성된 3D 표현은 실시간 렌더링이 가능하며, 절대 스케일을 포함한 메트릭 카메라 이동을 지원
- 여러 데이터셋에서 LPIPS 25–34% , DISTS 21–43% 개선과 함께 기존 모델 대비 세 자릿수 빠른 합성 속도 달성
- 오픈소스로 공개되어, 개발자들이 CLI 기반 예측·렌더링을 직접 실행하고 다양한 3D 렌더러와 연동 가능
SHARP 개요
-
SHARP(Sharp Monocular View Synthesis) 는 단일 사진으로부터 포토리얼리스틱한 3D 뷰를 생성하는 접근법
- 입력된 이미지를 기반으로 3D Gaussian 표현의 파라미터를 회귀 방식으로 추정
- 표준 GPU에서 단일 피드포워드 패스만으로 1초 미만의 처리 속도 달성
- 생성된 3D Gaussian 표현은 실시간 렌더링이 가능하며, 주변 시점에서의 고해상도 이미지를 제공
- 표현은 절대 스케일을 포함한 메트릭 구조로, 실제 카메라 이동을 지원
성능 및 일반화
- 실험 결과, SHARP는 다양한 데이터셋에서 제로샷 일반화 성능을 보임
- 기존 최고 성능 모델 대비 LPIPS 25–34% , DISTS 21–43% 감소
-
합성 시간은 세 자릿수 단축, 즉 기존 대비 약 1000배 빠른 처리 속도
설치 및 실행
- Python 3.13 환경에서 실행 가능하며, pip install -r requirements.txt로 의존성 설치
- 명령줄 인터페이스(CLI)에서 다음과 같이 예측 수행
-
sharp predict -i 입력경로 -o 출력경로
- 최초 실행 시 모델 체크포인트가 자동 다운로드되어 로컬 캐시에 저장
- 수동 다운로드 시 -c 옵션으로 지정 가능
- 출력 결과는 3D Gaussian Splat(3DGS) 형식의 .ply 파일로 저장되며, 공개 3DGS 렌더러와 호환
렌더링 기능
- CUDA GPU 환경에서 카메라 궤적을 따라 비디오 렌더링 가능
-
--render 옵션을 사용해 예측과 렌더링을 동시에 수행
- 또는 중간 결과(.ply)를 이용해 별도 렌더링 실행 가능
- OpenCV 좌표계(x 오른쪽, y 아래, z 전방)를 따르며, 외부 렌더러 사용 시 스케일 및 회전 보정 필요
평가 및 참고 자료
- 정량적·정성적 평가 결과는 논문에 수록되어 있음
-
프로젝트 페이지에서 비교 영상 예시 확인 가능
라이선스 및 인용
- 코드와 모델은 각각 LICENSE, LICENSE_MODEL 파일의 조건에 따라 사용 가능
- 연구 인용 시 arXiv 논문 “Sharp Monocular View Synthesis in Less Than a Second (2025)” 참고
- 코드베이스는 여러 오픈소스 기여물을 기반으로 구축됨