확산 모델의 발전과 함께, 다양한 이미지 편집 기법들도 함께 개발되어 왔다. 이를 지원하기 위해 원본 콘텐츠를 보존하기 위한 여러 가지 역추정(inversion) 방법들이 도입되었다. 그러나 이러한 역추정 방법들은 종종 불안정성을 보이며, 특히 딥 U-Nets를 탑재한 고해상도 확산 모델에 적용될 때 특정 이미지들을 재구성하지 못하는 경우가 흔하다. 이러한 문제를 해결하기 위해, 본 연구에서는 새로운 플러그앤플레이 plug-and-play RLI(Residual Linear Interpolation) 방법을 제안한다. 순전파(forward) 과정에서, 본 방법은 자기어텐션(self-attention) 메커니즘 내에서 동작하며 계산 전후의 어텐션 값들 사이를 보간(interpolation)한다. 이러한 보간은 어텐션 맵의 급격한 변화를 완화하여, 공간적 표현에서의 보다 매끄러운 전이를 가능하게 하고 원본 콘텐츠에 대한 의도치 않은 왜곡을 줄인다. 본 방법은 다양한 기존 확산 모델 변형, 역추정 기법, 그리고 이미지 편집 접근법과 호환된다. 특히, SDXL에서 Null-text Inversion을 사용할 때 관찰되는 재구성 실패에 대해 유의미한 해결책을 제공하며, 여기서는 null-text 최적화가 적절히 수렴하지 않는다. 또한, 여러 확산 모델 전반에 걸쳐 다양한 역추정 방법과 이미지 편집 방법과 결합하였을 때, 본 접근법은 기존 편집 성능을 저해하지 않으면서도 정량적 및 정성적으로 원본 콘텐츠 보존이 더 우수함을 보여준다. 코드는 https://github.com/ugiugi0823/ICCVW-RLI 에서 제공된다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.