음성 및 시각 양식 데이터는 많은 분야에서 정밀한 조사를 수행하는 데 필수적인 요소이다. 때로는 시각 데이터를 얻기 어려운 반면 청각 데이터는 쉽게 이용 가능하다. 이 경우, 음성 데이터를 이용해 시각 데이터를 생성하는 것은 매우 유용할 수 있다. 본 논문은 새로운 오디오-투-비주얼 크로스모달 생성 접근법을 제안한다. 제안하는 사운드 인코더는 청각 데이터의 특징을 추출하고, 생성 모델은 그 음성 특징을 사용하여 이미지를 생성한다. 이 모델은 (i) 타당한 특징 표현과 (ii) 생성된 이미지와 음성 입력 간의 연관성을 학습하여 사실적이며 잘 분류된 이미지를 생성할 것으로 기대된다. 본 연구를 위해 10종의 서로 다른 조류 종의 소리와 이에 대응하는 이미지를 포함하는 새로운 데이터셋인 Audio-Visual Corresponding Bird(AVC-B) 데이터셋을 수집하였다. 실험 결과, 제안된 방법은 분류에 적합한 이미지를 생성할 수 있으며 최신 기술(state-of-the-art) 방법보다 더 나은 분류 성능을 달성함을 보여준다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.