전파 기반 비디오 편집(Propagation-based video editing)은 단일 편집 프레임을 후속 프레임으로 전파함으로써, 동작과 구조 등 원래의 맥락을 유지하면서 사용자의 정밀한 제어를 가능하게 한다. 그러나 이러한 모델을 학습시키려면 대규모의 짝지어진(원본 및 편집본) 비디오 데이터셋이 필요하며, 이는 확보 비용이 크고 복잡하다. 이에 본 연구는 오프더셸프(off-the-shelf) 또는 사전 계산된 짝지어진 비디오 편집 데이터셋을 요구하는 대신, 사전 학습된 비디오 확산 모델(VDM)로부터의 on-the-fly(실시간) 감독에 의존하여 전파 기반 비디오 편집을 위한 학습 파이프라인인 PropFly를 제안한다. 구체적으로, 우리의 PropFly는 서로 다른 Classifier-Free Guidance(CFG) 스케일을 갖는 중간 noised latent로부터 한 단계(one-step) clean latent 추정을 활용하여, on-the-fly로 다양한 쌍의 ‘source’(저-CFG)와 ‘edited’(고-CFG) latent를 합성한다. source latent는 비디오의 구조적 정보를 제공하며, edited latent는 학습을 위한 목표 변환을 제공한다. 본 파이프라인은 사전 학습된 VDM에 부착된 추가 어댑터가 Guidance-Modulated Flow Matching(GMFM) loss를 통해 편집의 전파를 학습하도록 하며, 이는 모델이 목표 변환을 재현하도록 유도한다. on-the-fly 감독은 모델이 시간적으로 일관되고 역동적인 변환을 학습하도록 보장한다. 광범위한 실험 결과, 우리의 PropFly는 다양한 비디오 편집 작업에서 기존의 최신 방법들보다 유의하게 우수한 성능을 보이며, 고품질의 편집 결과를 산출함을 확인하였다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.