최근 GAN 모델의 발전은 다양한 대상 이미지의 사진과 유사한 합성을 가능하게 했지만, 다수의 물체가 포함된 장면과 같은 더 복잡한 이미지 분포를 모델링하는 데에는 여전히 과제가 남아 있다. 이러한 어려움은 장면 이미지의 높은 구조적 복잡성에 있으며, 판별기(discriminator)는 실제 장면 이미지와 가짜 장면 이미지 사이의 복잡한 구조적 차이를 판별하는 데 큰 부담을 지닌다. 따라서 판별기의 판별 능력을 향상시키는 것은 GAN 모델의 생성 성능을 개선하는 효과적인 전략 중 하나가 될 수 있다. 본 논문에서는 시각 표현 학습에 관한 두 가지 최근 패러다임인 자기지도학습(self-supervised learning)과 전이학습(transfer learning)을 활용하여 판별 능력을 향상시키는 방법을 탐구한다. 첫 번째 접근으로, 판별기의 다중 스케일(multi-scale) 표현을 강화하기에 적합한 자기지도 보조 과제를 제안한다. 두 번째 접근으로는, 다양한 장면 이해(scene understanding) 모델로부터 사전학습된 표현을 활용하여 판별기를 추가로 강화한다. 다수의 전문가 모델로부터의 지식을 충분히 활용하기 위해, 다중 스케일 특징 앙상블(multi-scale feature ensemble)을 제안하여 다중 스케일 표현을 혼합한다. 도전적인 장면 데이터셋에서의 실험 결과는 제안된 전략들이 생성 성능을 유의하게 향상시켜 복잡한 장면 이미지의 다양하고 사진과 같은 합성을 가능하게 함을 보여준다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.