멀리 떨어진 시공간 상호작용을 연결하는 것은, 큰 이동 마스크를 사용하는 고품질 비디오 인페인팅에서 중요하다. 대부분의 기존 기술은 프레임 내에서 패치 유사성을 활용하거나, 공간 및 시간 차원에서 구멍을 메우기 위해 대규모 학습 데이터를 이용한다. 최근 연구들은 근접 상호작용의 지배로부터 벗어나기 위해 딥 비디오 인페인팅에 유망한 Transformer 구조를 도입함으로써, 기존 기준 모델보다 우수한 성능을 달성한다. 그러나 이러한 방법들은 여전히 복잡한 장면을 포함하는 더 큰 구멍을 완성하는 데 어려움을 겪는다. 이 문제를 완화하기 위해, 우리는 먼저 토큰 표현을 위해 프레임 전역의 수용영역을 포괄하는 빠른 푸리에 합성곱을 사용한다. 그런 다음 토큰은 분리된 시공간 Transformer를 통과하여 장거리 문맥 관계를 명시적으로 모델링하는 동시에, 모든 입력 프레임에서 누락된 영역을 동시에 완성한다. 비디오 인페인팅을 방향성이 없는 시퀀스-투-시퀀스 예측 과제로 정식화함으로써, 우리 모델은 큰 결손 영역이나 복잡한 기하구조와 같은 조건에서도 시각적으로 일관된 콘텐츠를 채운다. 또한 우리의 시공간 Transformer는 경계로부터 구멍을 반복적으로 채워 풍부한 문맥 정보를 활용할 수 있다. 우리는 표준 정지 마스크와 보다 현실적인 움직이는 객체 마스크를 사용하여 제안한 모델의 우수성을 검증한다. 정성적 및 정량적 결과 모두에서, 우리 모델은 최신 알고리즘과 비교하여 유리함을 보인다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.