우리는 음성 유도를 통한 국소화 이미지 스타일화(audo-guided localized image stylization)를 위한 새로운 프레임워크를 제안한다. 소리는 장면의 특정 맥락에 관한 정보를 제공하며, 장면의 특정 부분 또는 대상과 밀접하게 연관되어 있다. 그러나 기존의 이미지 스타일화 연구들은 이미지 또는 텍스트 입력을 사용하여 전체 이미지를 스타일화하는 데에 초점을 맞춰 왔다. 음성 입력에 따라 이미지의 특정 부분을 스타일화하는 것은 자연스러우나 도전적이다. 본 연구는 사용자가 음성 입력을 제공하여 입력 이미지에서 목표를 국소화하고, 동시에 목표 대상 또는 장면을 음성에 근거해 국소적으로 스타일화하도록 하는 프레임워크를 제안한다. 먼저 CLIP 임베딩 공간을 활용하는 오디오-비주얼 국소화 네트워크를 통해 정밀한 국소화 맵(fine localization map)을 생성한다. 이후 예측된 국소화 맵과 함께 암시적 신경 표현(implicit neural representation, INR)을 이용하여 음성 정보에 기반해 목표를 스타일화한다. INR은 제공된 음성 입력과 의미적으로 일관되도록 국소 픽셀 값을 조작한다. 실험 결과, 제안한 프레임워크는 다른 음성 유도 스타일화 방법들보다 우수한 성능을 보였다. 또한, 본 방법은 간결한 국소화 맵을 구성하고 주어진 음성 입력에 따라 목표 대상 또는 장면을 자연스럽게 조작함을 관찰하였다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.