이미지 워터마킹은 진위성과 출처의 보존을 뒷받침하지만, 여전히 다양한 왜곡과 강력한 생성 편집을 통해 많은 기법들이 쉽게 우회될 수 있다. 딥러닝 기반 워터마킹은 확산(diffusion) 기반 이미지 편집에 대한 강인성을 개선했으나, 워터마크된 이미지를 이미지-투-비디오(image-to-video, I2V)로 변환할 때에는 워터마크 검출이 프레임 단위로 약화되는 공백이 남아 있다. I2V는 짧고 흔들리는 클립에서 수 초에 이르는 시간적 일관성을 갖는 장면으로 빠르게 발전했으며, 현재는 단순한 콘텐츠 생성뿐 아니라 세계모델링(world-modeling) 및 시뮬레이션 워크플로에도 활용되어, 교차 양식(cross-modal) 워터마크 복구가 중요해졌다. 본 연구에서는 I2V 하에서의 강인성을 위해 특화된 프레임워크 WaTeRFlow를 제시한다. 이는 (i) FUSE(Flow-guided Unified Synthesis Engine)로, 인스트럭션(instruction) 기반 편집과 학습 중의 빠른 비디오 확산 프록시를 통해 인코더-디코더에 현실적인 왜곡을 노출시키고, (ii) 시간적 일관성 손실(Temporal Consistency Loss, TCL)을 사용하는 광흐름(optical-flow) 워핑으로 프레임 단위 예측을 안정화하며, (iii) 조건 신호(conditioning signal)를 유지하는 의미 보존 손실을 포함한다. 대표적인 I2V 모델 전반에서 수행한 실험은 프레임으로부터 정확한 워터마크 복구가 가능함을 보여주었는데, 다양한 왜곡을 비디오 생성 전 또는 생성 후에 적용하더라도 1번째 프레임과 프레임 단위 비트 정확도가 더 높고 강인성이 유지되었다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.