Audio-guided implicit neural representation for local image stylization | 김진규 교수 연구실 | 고려대학교 컴퓨터학과

김진규 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 4

·2024

Audio-guided implicit neural representation for local image stylization

Seung Hyun Lee, Sieun Kim, Wonmin Byeon, Gyeongrok Oh, Sumin In, Hyeongcheol Park, Sang Ho Yoon, Sunghee Hong, Jinkyu Kim, Sangpil Kim

IF 18.3 (2024) Computational Visual Media

초록

우리는 음성 유도를 통한 국소화 이미지 스타일화(audo-guided localized image stylization)를 위한 새로운 프레임워크를 제안한다. 소리는 장면의 특정 맥락에 관한 정보를 제공하며, 장면의 특정 부분 또는 대상과 밀접하게 연관되어 있다. 그러나 기존의 이미지 스타일화 연구들은 이미지 또는 텍스트 입력을 사용하여 전체 이미지를 스타일화하는 데에 초점을 맞춰 왔다. 음성 입력에 따라 이미지의 특정 부분을 스타일화하는 것은 자연스러우나 도전적이다. 본 연구는 사용자가 음성 입력을 제공하여 입력 이미지에서 목표를 국소화하고, 동시에 목표 대상 또는 장면을 음성에 근거해 국소적으로 스타일화하도록 하는 프레임워크를 제안한다. 먼저 CLIP 임베딩 공간을 활용하는 오디오-비주얼 국소화 네트워크를 통해 정밀한 국소화 맵(fine localization map)을 생성한다. 이후 예측된 국소화 맵과 함께 암시적 신경 표현(implicit neural representation, INR)을 이용하여 음성 정보에 기반해 목표를 스타일화한다. INR은 제공된 음성 입력과 의미적으로 일관되도록 국소 픽셀 값을 조작한다. 실험 결과, 제안한 프레임워크는 다른 음성 유도 스타일화 방법들보다 우수한 성능을 보였다. 또한, 본 방법은 간결한 국소화 맵을 구성하고 주어진 음성 입력에 따라 목표 대상 또는 장면을 자연스럽게 조작함을 관찰하였다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Representation (politics)Computer scienceComputer graphicsImage (mathematics)Computer graphics (images)GraphicsArtificial intelligenceComputer visionArtificial neural network

타입

article

IF / 인용수

18.3 / 4

원문

https://doi.org/10.1007/s41095-024-0413-5

게재 연도

2024

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)