연속 시공간 비디오 초해상도(C-STVSR)에서 기존 방법들은 연속 인코딩을 위해 암시적 신경 표현(Implicit Neural Representation, INR)을 사용하지만, 종종 비디오 데이터의 복잡성을 충분히 포착하지 못하며, 단순 좌표 연결과 사전 학습된 광류(optical flow) 네트워크에 의존해 운동 표현을 구성한다. 흥미롭게도, 일반적인 관찰과는 달리 위치 인코딩을 추가하면 성능이 향상되지 않을 뿐 아니라 오히려 저하됨을 확인하였다. 이러한 문제는 특히 사전 학습된 광류 네트워크와 결합될 때 더욱 두드러지는데, 이는 모델의 유연성을 제한할 수 있기 때문이다. 이를 해결하기 위해 본 연구에서는 BF-STVSR을 제안하는데, 이는 비디오의 공간적·시간적 특성을 더 잘 나타내도록 설계된 두 가지 핵심 모듈을 포함한 C-STVSR 프레임워크이다: 1) 매끄러운 시간적 보간을 위한 B-spline Mapper, 2) 지배적인 공간 주파수를 포착하기 위한 Fourier Mapper. 본 접근법은 PSNR 및 SSIM을 포함한 다양한 지표에서 최신 성능을 달성하며, 향상된 공간적 디테일과 자연스러운 시간적 일관성을 보여준다. 우리의 코드는 에서 이용 가능하다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.