Learning Hierarchical Modular Networks for Video Captioning | 양밍쉬안 교수 연구실 | 연세대학교 인공지능학과

|양밍쉬안 교수 연구실

홈

연구 영역

기본 정보

논문·특허

구성원

Article|

인용수 31

·2023

Learning Hierarchical Modular Networks for Video Captioning

Guorong Li, Hanhua Ye, Yuankai Qi, Shuhui Wang, Laiyun Qing, Qingming Huang, Ming–Hsuan Yang

IF 20.8 (2023) IEEE Transactions on Pattern Analysis and Machine Intelligence

초록

비디오 캡셔닝(video captioning)은 주어진 비디오 클립에 대해 자연어 설명을 생성하는 것을 목표로 한다. 기존 방법들은 주로 예측 캡션과 정답 텍스트 간의 단어 단위 비교를 통한 종단 간 표현 학습에 초점을 맞춘다. 상당한 진전에도 불구하고, 기존의 지도학습(supervised) 접근은 시각적 실체와 언어적 실체 간의 의미 정렬(semantic alignment)을 소홀히 하여 생성된 캡션에 부정적 영향을 줄 수 있다. 본 연구에서는 캡션을 생성하기 전에 네 가지 세분성(실체, 동사, 술어, 문장)에서 비디오 표현과 언어 의미를 연결하기 위해 계층적 모듈형 네트워크를 제안한다. 각 수준은 대응하는 의미를 비디오 표현에 내재화하기 위해 하나의 모듈로 구현된다. 또한 우리는 장면 그래프(scene graph)를 기반으로 한 캡션 강화학습(reinforcement learning) 모듈을 제시하여 문장 유사도를 더 잘 측정한다. 광범위한 실험 결과, 제안 방법은 microsoft research video description corpus(MSVD), MSR-video to text(MSR-VTT), video-and-TEXt(VATEX)를 포함한 세 개의 널리 사용되는 벤치마크 데이터셋에서 최신(state-of-the-art) 모델들과 비교하여 유리한 성능을 보인다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Closed captioningComputer scienceModular designArtificial intelligenceNatural language processingMachine learningImage (mathematics)Programming language

타입

Article

IF / 인용수

20.8 / 31

원문

https://doi.org/10.1109/tpami.2023.3327677

게재 연도

2023