연속 공간-시간 비디오 초해상화(C-STVSR)에서 기존 방법들은 연속 인코딩을 위해 암시적 신경 표현(Implicit Neural Representation, INR)을 사용하지만, 영상 데이터의 복잡성을 포착하는 데에는 종종 어려움을 겪으며, 모션 표현을 위해 단순한 좌표 연결과 사전 학습된 광류(optical flow) 네트워크에 의존하는 경향이 있다. 흥미롭게도, 일반적인 관찰과는 달리 위치 인코딩을 추가하면 성능이 향상되지 않을 뿐 아니라 오히려 저하됨을 확인하였다. 이러한 문제는 특히 사전 학습된 광류 네트워크와 결합될 때 두드러지는데, 이는 모델의 유연성을 제한할 수 있기 때문이다. 이와 같은 문제를 해결하기 위해, 우리는 영상의 공간적·시간적 특성을 더 잘 반영하도록 설계된 두 개의 핵심 모듈을 갖춘 C-STVSR 프레임워크인 BF-STVSR를 제안한다: 1) 매끄러운 시간 보간을 위한 B-spline Mapper, 그리고 2) 지배적인 공간 주파수를 포착하기 위한 Fourier Mapper이다. 우리의 방법은 PSNR과 SSIM을 포함한 다양한 지표에서 최첨단 성능을 달성하며, 향상된 공간 디테일과 자연스러운 시간적 일관성을 보여준다. 코드는 https://github.com/Eunjnnn/bfstvsr 에서 제공된다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.