C-SupConGAN: Using Contrastive Learning and Trained Data Features for Audio-to-Image Generation | 김종국 교수 연구실 | 고려대학교 전기전자공학부

|김종국 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Article|

인용수 0

·2022

C-SupConGAN: Using Contrastive Learning and Trained Data Features for Audio-to-Image Generation

Hae-Chun Chung, Jong‐Kook Kim

초록

본 논문에서는 오디오-이미지 생성 문제를 연구하며, 오디오 입력으로부터 적절한 이미지를 생성하는 방법을 다룬다. 선행 연구인 교차-양식 대조 표현 학습(Cross-Modal Contrastive Representation Learning, CMCRL)은 오디오와 이미지를 함께 사용하여 오디오-이미지 생성에 유용한 오디오 특징을 추출하도록 학습하였다. CMCRL은 생성 학습 단계에서 높은 성능을 달성하기 위해 생성적 적대 신경망(Generative Adversarial Networks, GAN)을 개선하였으나, GAN은 학습 불안정성을 보였다. 본 논문에서는 조건부 지도 대조 손실(conditional supervised contrastive loss, C-SupCon loss)을 사용하는 C-SupConGAN을 제안한다. C-SupConGAN은 판별기에서 데이터-데이터 관계와 데이터-클래스 관계를 고려하는 대조적 GAN(ContraGAN)의 조건부 대조 손실(2C loss)을 강화한다. CMCRL로 사전학습된 인코더에서 추출한 오디오 및 이미지 임베딩을 사용하여 C-SupCon loss를 추가로 확장한다. 확장된 C-SupCon loss는 데이터 임베딩과 해당 오디오 임베딩 간의 관계 정보(데이터-소스 관계) 또는 데이터 임베딩과 해당 이미지 임베딩 간의 관계 정보(데이터-타깃 관계) 또한 추가로 고려한다. 광범위한 실험 결과, 제안 방법은 성능을 향상시키고, 선행 연구보다 오디오-이미지 생성에서 더 높은 품질의 이미지를 생성하며, GAN의 학습 붕괴(training collapse)를 효과적으로 완화하는 것으로 나타났다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Computer scienceEmbeddingDiscriminatorArtificial intelligenceEncoderImage (mathematics)Pattern recognition (psychology)Speech recognition

타입

Article

IF / 인용수

- / 0

원문

https://doi.org/10.1145/3582099.3582121

게재 연도

2022