멀티모달 가짜 뉴스 탐지는 최근 들어 점차 더 많은 관심을 받고 있다. 기존 방법들은 단일 모달 데이터를 각각 독립적으로 인코딩하는 데 의존하며, 고급 기법을 통해 모달 내 관계를 포착하고 모달 간 유사성을 통합하는 이점을 간과한다. 이러한 문제를 해결하기 위해, 멀티모달 가짜 뉴스 탐지를 위한 크로스-모달 트라이-트랜스포머(Cross-Modal Tri-Transformer)와 메트릭 러닝(Metric Learning, CroMe)을 제안한다. CroMe는 고정된 이미지 인코더와 대형 언어 모델을 인코더로 사용하여 Bootstrapping Language-Image Pre-training(BLIP2-OPT)을 활용함으로써 상세한 텍스트, 이미지 및 결합된 이미지-텍스트 표현을 포착한다. 메트릭 러닝 모듈은 프록시 앵커(proxy anchor) 방법을 사용하여 모달 내 관계를 포착하고, 특징 융합 모듈은 Cross-Modal 및 Tri-Transformer를 사용하여 효과적인 통합을 수행한다. 최종 가짜 뉴스 탐지기는 융합된 특징을 분류기에 입력하여 콘텐츠의 진위 여부를 예측한다. 데이터셋에 대한 실험 결과, CroMe는 멀티모달 가짜 뉴스 탐지에서 뛰어난 성능을 보였다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.