잠재공간 기반 확산모델 고해상도 및 3D 생성 연구

Latent Space Diffusion for Super-Resolution and 3D Generation

연구 내용

확산모델에서 학습 해상도를 넘어서는 생성 품질 문제를 잠재공간 초해상도와 고효율 3D 생성 설계로 해결하고, 3D 키포인트·장면 재구성을 지원하는 연구

확산모델을 기반으로 고해상도 생성과 3D 표현을 효율적으로 수행하는 방법을 개발합니다. 이미지 생성에서는 RGB 업샘플링이 만드는 과도한 평활화를 줄이기 위해 잠재공간에서 초해상도를 수행하고, 잠재공간 정합을 위한 manifold alignment과 고주파 디테일 보강을 위한 region-wise 노이즈 추가를 결합합니다. 3D 생성에서는 점군을 VAE로 압축한 후 triplane 기반 디코더를 사용해 계산량을 줄이며, 불확실성 기반 token pruning으로 쉬운 영역 계산을 건너뛰도록 설계합니다. 또한 다중 뷰 확산모델의 기하 프라이어를 활용해 단안 3D 키포인트를 추정하고, 3D Gaussian Splatting 기반 재구성에서 가상 카메라 샘플링과 diffusion priors로 탐색 시 아티팩트를 완화합니다.

관련 프로젝트

0건

연구 흐름

2025년에는 먼저 잠재공간 초해상도(Latent space Super-Resolution)를 확산모델 생성에 직접 결합하여 고해상도에서 구조 왜곡과 반복 문제를 줄이는 방향으로 연구를 수행했습니다. 이어서 객체 중심 이미지 합성을 위한 대규모 실측 데이터셋을 제안하며, 생성·합성 연구를 위한 학습 기반을 확장했습니다. 이후에는 3D 확산모델을 위한 압축 잠재표현(COD-VAE)과 단안 3D 키포인트 추정(KeyDiff3D)으로 3D 이해 및 생성 파이프라인을 심화했습니다. 마지막으로 가상 카메라 샘플링과 diffusion priors를 결합한 탐색형 3D 장면 재구성(ExploreGS)으로, 학습 궤도 이탈 상황에서도 재구성 품질을 유지하는 방향으로 확장했습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

1K 이상 초고해상도 이미지 생성
잠재공간 정밀 업스케일링
객체 중심 이미지 합성
단안 3D 키포인트 추정
3D 장면 재구성
뷰 합성(View synthesis)
장면 탐색용 렌더링 품질 개선
3D 생성 모델 경량화
점군 기반 고효율 생성
다중 뷰 프라이어 기반 기하 추정