기본 정보
연구 분야
프로젝트
발행물
구성원
article|
인용수 0
·2025
VGG-Foley-Sound: Reconstruction of Foley-sound Video Dataset using a Large Multi-modal Model and CLAP
Yunsu Lee, Su-Hyung Choi, Hanwool Sul, Suyeon Shin, Byoung‐Tak Zhang
KIISE Transactions on Computing Practices
초록

생성 모델은 이미지를 생성하는 데 탁월한 성능을 보이지만, 소리, 특히 영상의 후편집 작업에 삽입되는 효과음인 폴리 사운드(foley-sound)를 생성하는 데에는 충분한 성능을 내지 못하고 있다. 우리는 이를 보완하기 위해 폴리 사운드 생성을 위한 비디오 데이터셋을 재구축했다. VGG-Sound는 유튜브 영상의 ID와 라벨을 제공하는 비디오 데이터셋이다. 하지만 이 데이터셋의 클래스는 폴리 사운드에 적합하지 않다. 본 연구는 먼저, VGG-Sound의 유튜브 ID로 섬네일 이미지를 추출하고 이를 대형 멀티모달 모델인 LLaVA에 입력해 해당 영상의 주요 재질을 예측했다. 또한 CLAP을 이용해, 오디오의 재질을 예측했다. 그리고 두 예측을 결합하여 폴리 사운드 생성에 적합한 데이터셋을 만들었다. 평가 결과, 시각 정보와 청각 정보를 모두 사용했을 때, 더욱 오디오와 유사도가 높은 라벨이 생성되었다. 또한 이 데이터셋으로 소리 생성 모델을 미세 조정할 시 일부 정량 평가 척도에서 성능이 향상되었다.

키워드
FoleySound (geography)ModalComputer scienceAcousticsMaterials sciencePhysics
타입
article
IF / 인용수
- / 0
게재 연도
2025