비디오 캡셔닝(video captioning)은 주어진 비디오 클립에 대해 자연어 설명을 생성하는 것을 목표로 한다. 기존 방법들은 주로 예측 캡션과 정답 텍스트 간의 단어 단위 비교를 통한 종단 간 표현 학습에 초점을 맞춘다. 상당한 진전에도 불구하고, 기존의 지도학습(supervised) 접근은 시각적 실체와 언어적 실체 간의 의미 정렬(semantic alignment)을 소홀히 하여 생성된 캡션에 부정적 영향을 줄 수 있다. 본 연구에서는 캡션을 생성하기 전에 네 가지 세분성(실체, 동사, 술어, 문장)에서 비디오 표현과 언어 의미를 연결하기 위해 계층적 모듈형 네트워크를 제안한다. 각 수준은 대응하는 의미를 비디오 표현에 내재화하기 위해 하나의 모듈로 구현된다. 또한 우리는 장면 그래프(scene graph)를 기반으로 한 캡션 강화학습(reinforcement learning) 모듈을 제시하여 문장 유사도를 더 잘 측정한다. 광범위한 실험 결과, 제안 방법은 microsoft research video description corpus(MSVD), MSR-video to text(MSR-VTT), video-and-TEXt(VATEX)를 포함한 세 개의 널리 사용되는 벤치마크 데이터셋에서 최신(state-of-the-art) 모델들과 비교하여 유리한 성능을 보인다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.