연구 영역
기본 정보
논문·특허
과제
구성원
Article|
인용수 0
·2026
PropFly: Learning to Propagate via On-the-Fly Supervision from Pre-trained Video Diffusion Models
Wonyong Seo, Jae-Ho Moon, Jaehyup Lee, Soo Ye Kim, Munchurl Kim
arXiv (Cornell University)
초록

전파 기반 비디오 편집(Propagation-based video editing)은 하나의 편집된 프레임을 이후 프레임들로 전파하면서, 동작과 구조 등 원래의 문맥을 유지함으로써 사용자가 정밀하게 제어할 수 있게 한다. 그러나 이러한 모델을 학습시키기 위해서는 대규모의 쌍을 이룬(원본과 편집본) 비디오 데이터셋이 필요하며, 이는 비용이 많이 들고 확보 과정이 복잡하다. 이에 본 연구에서는 오프더셸프 또는 미리 계산된 쌍을 이룬 비디오 편집 데이터셋을 요구하지 않고, 사전 학습된 비디오 확산 모델(VDM)로부터의 on-the-fly 감독을 기반으로 하는 전파 기반 비디오 편집 학습 파이프라인인 PropFly를 제안한다. 구체적으로 PropFly는 중간의 노이즈된(latent)에서 서로 다른 Classifier-Free Guidance(CFG) 스케일을 적용한 원-스텝(one-step) 클린 잠재 추정치를 활용하여, ‘source’(저-CFG)와 ‘edited’(고-CFG) 잠재를 on-the-fly로 합성함으로써 다양한 쌍을 생성한다. source 잠재는 비디오의 구조적 정보를 제공하는 반면, edited 잠재는 학습을 위한 전파의 목표 변환을 제공한다. 우리의 파이프라인은 사전 학습된 VDM에 부착된 추가 어댑터를 통해 Guidance-Modulated Flow Matching(GMFM) 손실로 편집을 전파하는 방법을 학습할 수 있게 하며, 이 손실은 모델이 목표 변환을 재현하도록 유도한다. on-the-fly 감독은 모델이 시간적으로 일관되고 역동적인 변환을 학습하도록 보장한다. 광범위한 실험 결과, PropFly는 다양한 비디오 편집 과제에서 기존 최첨단 방법을 유의미하게 능가하며, 고품질의 편집 결과를 생성함을 보여준다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Pipeline (software)Context (archaeology)Matching (statistics)Frame (networking)Video editingVideo trackingActive appearance modelVideo processing
타입
Article
IF / 인용수
- / 0
게재 연도
2026