오디오-비주얼 생성 및 멀티모달 신뢰성 학습

Audio-to-Visual Generation and Multimodal Reliability Learning

연구 내용

오디오 특징 인코딩과 GAN·대조학습·트랜스포머 융합을 통해 오디오-비주얼 생성, 멀티모달 분류, 동적 CAPTCHA 보안 성능을 동시에 개선하는 연구

오디오만 제공되는 상황에서 시각 정보를 생성하고, 생성 결과의 분류 적합성과 보안 안정도를 함께 확보하는 멀티모달 학습을 수행합니다. 사운드 인코더로 오디오 특징을 추출하고 생성 모델이 해당 특징으로 이미지를 합성하도록 학습시키며, 오디오-타깃 간 관계를 반영하는 대조학습 기반 손실로 GAN 학습 붕괴를 완화합니다. 또한 멀티모달 입력에 대해 Cross-Modal Tri-Transformer와 Metric Learning을 결합해 텍스트-이미지 연관성을 강화합니다. 이미지 기반 CAPTCHA에서는 이미지 품질과 생성 지연의 트레이드오프를 고려한 시간 평균 품질 최대화와 안정도 제약을 통해 실시간 인증 성능을 유지하는 방향으로 연구합니다.

관련 프로젝트

0건

연구 흐름

2022년에는 오디오-이미지 생성에서 학습 불안정을 줄이기 위해 대조학습 기반 손실을 GAN에 결합하는 연구(C-SupConGAN)를 수행했습니다. 2023년에는 오디오에서 클래스 적합 이미지를 생성하기 위해 오디오 특징 인코딩과 생성 모델을 결합하고, AVC-B 데이터셋으로 실험 가능성을 확장했습니다. 같은 해에는 생성되는 이미지를 이용해 딥러닝 기반 공격 학습을 어렵게 만드는 동적 CAPTCHA 생성 관점을 채택하고, 품질-지연 트레이드오프와 안정성을 함께 고려했습니다. 이후 2025년에는 텍스트-이미지 멀티모달 입력을 Cross-Modal Tri-Transformer와 Metric Learning으로 통합하여 멀티모달 허위정보 탐지로 적용 범위를 넓혔습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

오디오 기반 이미지 생성
오디오-비주얼 매핑 모델
멀티모달 허위정보 탐지
동적 이미지 CAPTCHA 생성
생성 품질-지연 제어
대조학습 기반 생성 안정화
멀티모달 분류기 구축
크로스모달 표현 학습
합성 데이터 생성 파이프라인
오디오 기반 콘텐츠 보강