본 논문에서는 잠재(latent) 공간에서 초해상도를 직접 활용함으로써 확산(diffusion) 모델을 이용한 고해상도(1K 초과) 영상 생성을 위한 새로운 프레임워크인 LSRNA를 제안한다. 기존의 확산 모델은 학습 해상도 이상으로 확장할 때 어려움을 겪으며, 그 결과 구조적 왜곡이나 콘텐츠 반복이 자주 발생한다. 기준(reference) 기반 방법은 저해상도 기준 이미지를 업샘플링하여 고해상도 생성을 유도함으로써 이러한 문제를 해결한다. 그러나 이 방법들은 중대한 한계를 가진다. 잠재 공간에서의 업샘플링은 종종 매니폴드(manifold) 일탈을 유발하여 출력 품질을 저하시킨다. 반면 RGB 공간에서의 업샘플링은 지나치게 매끈하게 뭉개진 결과를 생성하는 경향이 있다. 이러한 한계를 극복하기 위해 LSRNA는 매니폴드 정렬을 위한 잠재 공간 초해상도(Latent space Super-Resolution, LSR)와 고주파 디테일을 향상시키기 위한 영역 단위 노이즈 추가(Region-wise Noise Addition, RNA)를 결합한다. 광범위한 실험 결과, LSRNA를 통합한 방법은 다양한 해상도와 지표 전반에서 기존의 최신 기준 기반 방법을 성능이 우수하게 능가함을 보여주었으며, 동시에 디테일과 선명도를 보존하는 데 있어 잠재 공간 업샘플링의 핵심적 역할을 확인하였다. 코드는 https://github.com/3587jjh/LSRNA 에서 제공될 예정이다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.