최근 초해상도~(SR) 방법은 주로 장거리 모델링 능력이 강하고 표현력이 뛰어난 변환기(Transformer)를 채택한다. 그러나 대부분의 SR 변환기는 상대 위치 편향~(RPB)에 크게 의존하는데, 이는 FlashAttention과 같은 하드웨어 효율적인 어텐션 커널을 활용하지 못하게 한다. 이러한 제약은 학습과 추론 모두에서 막대한 계산 부담을 야기하여, 학습 패치 크기나 자기-어텐션 윈도우를 확장함으로써 SR 변환기를 스케일링하려는 시도를 심각하게 제한한다. 그 결과, 변환기의 내재된 확장성을 적극적으로 활용하는 다른 분야와 달리 SR 변환기는 제한된 수용영역(receptive fields)을 효과적으로 활용하는 데에 여전히 큰 비중이 실려 있다. 본 논문에서는 RPB의 대안으로서 FlashAttention을 SR 변환기에 가능하게 하는 순위-인수분해(rank-factorized) 암시적 신경 편향~(RIB) 을 제안한다. 구체적으로, RIB는 저랭크의 암시적 신경 표현을 사용하여 위치 편향을 근사하고, 이를 채널 단위 방식으로 픽셀 콘텐츠 토큰과 연결(concatenate)하여, 어텐션 점수 계산에서의 원소 단위 편향 가산(element-wise bias addition)을 내적(dot-product) 연산으로 전환한다. 또한 RIB와 FlashAttention이 가능하게 하는 장거리 상호작용의 이점을 충분히 활용하기 위해, 합성곱 기반 국소 어텐션과 순환(cyclic) 윈도우 전략을 도입한다. 학습 패치 크기 및 데이터셋 크기를 함께 스케일링하면서 윈도우 크기를 최대 extbf{9696}까지 확장하여, SR 과제에서 변환기의 이점을 극대화한다. 그 결과, 본 네트워크는 Urban1002에서 extbf{35.63\,dB PSNR}을 달성하는 동시에, RPB 기반 SR 변환기~(PFT)에 비해 각각 extbf{2.1}와 extbf{2.9}만큼 학습 및 추론 시간을 감소시킨다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.