딥페이크는 실제처럼 보이지만 사실은 조작된 디지털 영상이다. 딥 생성 모델의 빠른 발전으로 인해 이러한 조작 기술의 접근성과 정교함이 증가하고 있으며, 그 결과 가짜 콘텐츠를 탐지하는 것이 더욱 어려워지고 있다. 다양한 얼굴 위조(facial forgery) 기법은 복잡한 데이터 분포를 초래하고, 대부분의 기존 딥페이크 탐지 접근법은 이를 이진 분류 문제로 취급하는 합성곱 신경망(CNN)에 의존한다. 이러한 방법들은 특정 데이터셋에서는 높은 정확도를 달성하지만, 학습 중에 관찰된 조작 기법에 과적합(overfitting)되는 경향 때문에 데이터셋 간 일반화 성능은 종종 낮다. 본 연구에서는 딥페이크 탐지에서의 일반화를 향상시키기 위해 EfficientNet Vision Transformer와 메타-러닝 프레임워크를 통합한 모델인 MEViT를 제안한다. 또한 가짜 샘플의 특징 표현이 진짜 샘플의 특징 표현과 멀어지도록 유도하는 쌍 판별(pair-discrimination) 손실과, 서로 다른 조작 방법 간의 도메인 전이(domain shift)를 감소시키기 위한 도메인 적응(domain adjustment) 손실을 도입한다. MEViT 모델은 FaceForensics++ 데이터셋에서 특정 조작 방법으로 학습하고, 동일 데이터셋 내의 다른 미학습 조작 방법에서 평가한다. 더불어 FaceForensics++ 및 CelebDF-v2를 포함한 여러 딥페이크 벤치마크에서 광범위한 실험을 수행하고, 다양한 최신 접근법과 비교하여 그 효과를 입증한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.