VGG-Foley-Sound: Reconstruction of Foley-sound Video Dataset using a Large Multi-modal Model and CLAP | 장병탁 교수 연구실 | 서울대학교 컴퓨터공학부

장병탁 교수 연구실

서비스 플랜

연구실 검색

프로젝트 공고

정부 과제 추천

AI 기반 기업 서칭

홈

기본 정보

연구 분야

프로젝트

발행물

구성원

article|

인용수 0

·2025

VGG-Foley-Sound: Reconstruction of Foley-sound Video Dataset using a Large Multi-modal Model and CLAP

Yunsu Lee, Su-Hyung Choi, Hanwool Sul, Suyeon Shin, Byoung‐Tak Zhang

KIISE Transactions on Computing Practices

초록

생성 모델은 이미지를 생성하는 데 탁월한 성능을 보이지만, 소리, 특히 영상의 후편집 작업에 삽입되는 효과음인 폴리 사운드(foley-sound)를 생성하는 데에는 충분한 성능을 내지 못하고 있다. 우리는 이를 보완하기 위해 폴리 사운드 생성을 위한 비디오 데이터셋을 재구축했다. VGG-Sound는 유튜브 영상의 ID와 라벨을 제공하는 비디오 데이터셋이다. 하지만 이 데이터셋의 클래스는 폴리 사운드에 적합하지 않다. 본 연구는 먼저, VGG-Sound의 유튜브 ID로 섬네일 이미지를 추출하고 이를 대형 멀티모달 모델인 LLaVA에 입력해 해당 영상의 주요 재질을 예측했다. 또한 CLAP을 이용해, 오디오의 재질을 예측했다. 그리고 두 예측을 결합하여 폴리 사운드 생성에 적합한 데이터셋을 만들었다. 평가 결과, 시각 정보와 청각 정보를 모두 사용했을 때, 더욱 오디오와 유사도가 높은 라벨이 생성되었다. 또한 이 데이터셋으로 소리 생성 모델을 미세 조정할 시 일부 정량 평가 척도에서 성능이 향상되었다.

키워드

FoleySound (geography)ModalComputer scienceAcousticsMaterials sciencePhysics

타입

article

IF / 인용수

- / 0

원문

https://doi.org/10.5626/ktcp.2025.31.5.271

게재 연도

2025