최근 확산 모델(diffusion models)의 발전은 고품질의 시간적 일관성을 갖춘 비디오 생성을 가능하게 하여 비디오 생성 분야에 혁신을 가져왔다. 그러나 고프레임레이트(FPS) 비디오를 생성하는 일은 특히 빠른 움직임이 있는 상황에서 깜빡임(flickering)과 긴 시퀀스에서의 열화(degradation)와 같은 문제로 인해 여전히 중대한 과제로 남아 있다. 기존 방법들은 종종 계산 효율성의 비효율성과, 장시간 프레임에 걸친 비디오 품질 유지에 대한 한계를 겪는다. 본 논문에서는 사전 학습된 확산 모델을 활용한 고 FPS 비디오 생성을 위한 새로운 학습 불필요(training-free) 접근법을 제안한다. 우리의 방법인 DiffuseSlide는 저 FPS 비디오로부터 핵심 프레임(key frames)을 활용하고, 노이즈 재주입(noise re-injection) 및 슬라이딩 윈도우 잠재 공간 잡음 제거(sliding window latent denoising)를 포함한 혁신적인 기법을 적용하는 새로운 파이프라인을 도입하여, 추가적인 미세조정(fine-tuning) 없이도 매끄럽고 일관된 비디오 출력을 달성한다. 광범위한 실험을 통해, 제안한 접근법이 비디오 품질을 유의미하게 향상시키며 시간적 일관성과 공간적 충실도(spatial fidelity)를 강화함을 입증한다. 제안된 방법은 계산적으로 효율적일 뿐 아니라 다양한 비디오 생성 과제에 적용 가능하여 가상현실, 비디오 게임, 고품질 콘텐츠 제작과 같은 응용에 적합하다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.