영상 프레임의 중요도 점수에 기반한 동영상 요약방법 및 장치
METHOD AND DEVICE FOR SUMMARIZING VIDEO BASED ON IMPORTANCE SCORE OF IMAGE FRAME
특허 요약
신경망모델을 이용하여 동영상에 대한 프레임 별 중요도를 예측하고, 예측된 프레임 별 중요도에 기초하여 동영상을 요약할 수 있는 동영상 요약방법 및 장치가 제공된다. 본 발명의 동영상 요약 방법은, 동영상의 각 프레임으로부터 획득한 시공간 특성을 반영하는 특징벡터를 신경망모델에 입력하여 동영상의 각 프레임에 대한 중요도를 예측하고, 예측된 프레임 중요도에 따라 동영상의 복수의 프레임 중 일부를 선택하여 요약 동영상을 생성할 수 있다.
청구항
번호청구항
1

동영상을 입력 받아 복수의 구간으로 분할하고, 상기 복수의 구간 각각의 복수의 프레임에 대한 프레임 별 특징벡터를 획득하는 단계;상기 프레임 별 특징벡터로부터 상기 복수의 구간 각각에 대한 구간 특징벡터를 획득하는 단계;기 학습된 예측모델을 이용하여 상기 구간 특징벡터로부터 상기 복수의 구간 각각에 대한 프레임 별 중요도를 예측하는 단계; 및상기 복수의 구간 각각의 상기 프레임 별 중요도에 기초하여 상기 복수의 구간 중 하나 이상의 구간을 선택하여 상기 동영상에 대한 요약 동영상을 생성하는 단계를 포함하는 동영상 요약방법.

2

제1항에 있어서, 상기 구간 특징벡터를 획득하는 단계는, 상기 프레임 별 특징벡터로부터 각 구간의 2차원 프레임 특징벡터를 획득하는 단계;상기 2차원 프레임 특징벡터를 3채널 프레임 특징벡터로 변환하는 단계; 및상기 3채널 프레임 특징벡터와 CLS 토큰을 결합하여 상기 복수의 구간 각각에 대한 상기 구간 특징벡터를 생성하는 단계를 포함하는 동영상 요약방법.

3

제1항에 있어서, 상기 프레임 별 중요도를 예측하는 단계는, 상기 구간 특징벡터로부터 키 값 및 밸류 값을 획득하는 단계;상기 키 값에 기초하여 상기 복수의 구간 각각에 대한 통합 특징벡터를 획득하는 단계;상기 통합 특징벡터와 상기 밸류 값에 기초하여 상기 복수의 구간 각각에 대한 혼합 특징벡터를 획득하는 단계; 및상기 혼합 특징벡터에 기초하여 상기 복수의 구간 각각에 대한 상기 프레임 별 중요도를 예측하는 단계를 포함하는 동영상 요약방법.

4

제3항에 있어서, 상기 통합 특징벡터를 획득하는 단계는, 상기 통합 특징벡터에 상기 복수의 구간 각각의 프레임 위치벡터를 결합하는 단계를 더 포함하는 동영상 요약방법.

5

제3항에 있어서, 상기 혼합 특징벡터를 획득하는 단계는, 상기 통합 특징벡터로부터 시간 축 가중치 값을 산출하는 단계;상기 통합 특징벡터로부터 공간 축 가중치 값을 산출하는 단계; 및상기 시간 축 가중치 값 및 상기 공간 축 가중치 값 각각에 상기 밸류 값을 결합하여 상기 혼합 특징벡터를 생성하는 단계를 포함하는 동영상 요약방법.

6

제1항에 있어서, 상기 요약 동영상을 생성하는 단계는, 상기 복수의 구간 각각의 상기 프레임 별 중요도의 평균값을 산출하는 단계; 및상기 복수의 구간 중에서 상기 평균값이 기 설정된 기준값 이상인 상기 하나 이상의 구간을 선택하는 단계를 포함하는 동영상 요약방법.

7

제6항에 있어서, 상기 요약 동영상을 생성하는 단계는, 상기 복수의 구간 중 선택된 상기 하나 이상의 구간 길이가 상기 동영상 전체의 15% 이하를 만족하도록 상기 요약 동영상을 생성하는 단계를 포함하는 동영상 요약방법.

8

제1항에 있어서, 상기 예측모델은, 상기 구간 특징벡터를 입력 받아 출력한 상기 프레임 별 중요도와 레이블 데이터로 입력 받은 중요도 정답 간 오차에 따른 손실 값을 결정하고, 상기 손실 값이 최소가 되도록 상기 예측모델의 하나 이상의 파라미터의 크기를 조절하여 상기 프레임 별 중요도를 예측하도록 학습된 동영상 요약방법.

9

동영상 요약 프로그램이 저장된 메모리; 및외부로부터 동영상이 입력되면, 상기 동영상 요약 프로그램을 실행하여 상기 동영상을 복수의 구간으로 분할하고, 상기 복수의 구간 각각의 복수의 프레임에 대한 프레임 별 특징벡터를 획득하고, 상기 프레임 별 특징벡터로부터 상기 복수의 구간 각각에 대한 구간 특징벡터를 획득하고, 기 학습된 예측모델을 이용하여 상기 구간 특징벡터로부터 상기 복수의 구간 각각에 대한 프레임 별 중요도를 예측하고, 상기 복수의 구간 각각의 상기 프레임 별 중요도에 기초하여 상기 복수의 구간 중 하나 이상의 구간을 선택하여 상기 동영상에 대한 요약 동영상을 생성하는 프로세서를 포함하는 동영상 요약장치.

10

제9항에 있어서, 상기 프로세서는, 상기 프레임 별 특징벡터로부터 각 구간의 2차원 프레임 특징벡터를 획득하고, 상기 2차원 프레임 특징벡터를 3채널 프레임 특징벡터로 변환하고, 상기 3채널 프레임 특징벡터와 CLS 토큰을 결합하여 상기 복수의 구간 각각에 대한 상기 구간 특징벡터를 생성하는 동영상 요약장치.

11

제9항에 있어서, 상기 프로세서는, 상기 구간 특징벡터로부터 키 값 및 밸류 값을 획득하고, 상기 키 값에 기초하여 상기 복수의 구간 각각에 대한 통합 특징벡터를 획득하고, 상기 통합 특징벡터와 상기 밸류 값에 기초하여 상기 복수의 구간 각각에 대한 혼합 특징벡터를 획득하고, 상기 혼합 특징벡터에 기초하여 상기 복수의 구간 각각에 대한 상기 프레임 별 중요도를 예측하는 동영상 요약장치.

12

제11항에 있어서, 상기 프로세서는, 상기 통합 특징벡터에 상기 복수의 구간 각각의 프레임 위치벡터를 결합하는 동영상 요약장치.

13

제11항에 있어서, 상기 프로세서는, 상기 통합 특징벡터로부터 시간 축 가중치 값을 산출하고, 상기 통합 특징벡터로부터 공간 축 가중치 값을 산출하고, 상기 시간 축 가중치 값 및 상기 공간 축 가중치 값 각각에 상기 밸류 값을 결합하여 상기 혼합 특징벡터를 생성하는 동영상 요약장치.

14

제9항에 있어서, 상기 프로세서는, 상기 복수의 구간 각각의 상기 프레임 별 중요도의 평균값을 산출하고, 상기 복수의 구간 중에서 상기 평균값이 기 설정된 기준값 이상인 상기 하나 이상의 구간을 선택하는 동영상 요약장치.

15

제14항에 있어서, 상기 프로세서는, 상기 복수의 구간 중 선택된 상기 하나 이상의 구간 길이가 상기 동영상 전체의 15% 이하를 만족하도록 상기 요약 동영상을 생성하는 동영상 요약장치.

16

제9항에 있어서, 상기 예측모델은, 상기 구간 특징벡터를 입력 받아 출력한 상기 프레임 별 중요도와 레이블 데이터로 입력 받은 중요도 정답 간 오차에 따른 손실 값을 결정하고, 상기 손실 값이 최소가 되도록 상기 예측모델의 하나 이상의 파라미터의 크기를 조절하여 상기 프레임 별 중요도를 예측하도록 학습된 동영상 요약장치.

17

컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 기록매체로서,상기 컴퓨터 프로그램은, 동영상을 입력 받아 복수의 구간으로 분할하고, 상기 복수의 구간 각각의 복수의 프레임에 대한 프레임 별 특징벡터를 획득하는 단계;상기 프레임 별 특징벡터로부터 상기 복수의 구간 각각에 대한 구간 특징벡터를 획득하는 단계;기 학습된 예측모델을 이용하여 상기 구간 특징벡터로부터 상기 복수의 구간 각각에 대한 프레임 별 중요도를 예측하는 단계; 및상기 복수의 구간 각각의 상기 프레임 별 중요도에 기초하여 상기 복수의 구간 중 하나 이상의 구간을 선택하여 상기 동영상에 대한 요약 동영상을 생성하는 단계를 포함하는 동영상 요약방법을 프로세서가 수행하기 위한 명령어를 포함하는 컴퓨터 판독 가능한 기록매체.

18

컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램으로서,상기 컴퓨터 프로그램은, 동영상을 입력 받아 복수의 구간으로 분할하고, 상기 복수의 구간 각각의 복수의 프레임에 대한 프레임 별 특징벡터를 획득하는 단계;상기 프레임 별 특징벡터로부터 상기 복수의 구간 각각에 대한 구간 특징벡터를 획득하는 단계;기 학습된 예측모델을 이용하여 상기 구간 특징벡터로부터 상기 복수의 구간 각각에 대한 프레임 별 중요도를 예측하는 단계; 및상기 복수의 구간 각각의 상기 프레임 별 중요도에 기초하여 상기 복수의 구간 중 하나 이상의 구간을 선택하여 상기 동영상에 대한 요약 동영상을 생성하는 단계를 포함하는 동영상 요약방법을 프로세서가 수행하기 위한 명령어를 포함하는 기록매체에 저장된 컴퓨터 프로그램.