행위 인식 방법 및 장치
Action recognition method and device
특허 요약
본 발명은 비지도 학습 방법을 이용한 행위 인식 방법 및 장치에 관한 발명이다. 본 발명의 일 실시예에 따른 행위 인식 장치는 분석대상 영상 및 기준 영상을 입력받는 입력 모듈; 인공 신경망을 이용하여 상기 입력받은 분석대상 영상의 특징들(features)과 상기 입력받은 기준 영상의 특징들을 프레임 단위로 추출하고, 상기 추출된 특징들 중 일부인 핵심 특징들을 각각 추출하는 특징 추출 모듈; 및 상기 추출된 핵심 특징들 간의 유사도를 계산하고, 유사도가 계산된 기준 영상들 중 가장 큰 유사도를 갖는 기준 영상을 출력하는 검증 모듈을 포함할 수 있다.
청구항
번호청구항
1

행위 인식 장치가 분석 대상 영상 내 객체의 행위를 인식하는 방법에 있어서,(a) 분석대상 영상 및 복수의 기준 영상들 중 제1 기준 영상을 입력받는 단계;(b) 인공 신경망을 이용하여 상기 분석대상 영상의 특징들(features)과 상기 제1 기준 영상의 특징들을 프레임 단위로 추출하는 단계;(c) 상기 추출된 분석대상 영상의 특징들과 상기 제1 기준 영상의 특징들 중 일부인 핵심 특징들을 각각 추출하는 단계; 및(d) 상기 추출된 핵심 특징들 중 상기 분석대상 영상 및 상기 제1 기준 영상에서 행위가 발생한 프레임 구간에 속하는 핵심 특징들 간의 유사도를 계산하는 단계를 포함하고,상기 핵심 특징은 상기 프레임 단위로 추출된 특징들 중, K-평균 클러스터링(K-means clustering) 알고리즘을 이용하여 추출된 일부 특징의 centroid 의 집합을 이루는 특징인, 방법.

2

제1항에 있어서,상기 (d) 단계 이후에,(e) 상기 복수의 기준 영상들 중 상기 제1 기준 영상과 상이한 제2 기준 영상을 입력받는 단계;(f) 상기 분석대상 영상의 특징들과 상기 제2 기준 영상의 특징들 간의 유사도를 계산하는 단계: 및(g) 상기 제1 기준 영상과 제2 기준 영상 중 계산된 유사도가 더 큰 기준 영상을 출력하는 단계를 더 포함하는,방법.

3

제2항에 있어서,상기 (g) 단계 이후에,상기 복수의 기준 영상들 중에서 나머지 영상들 중 하나의 기준 영상과 상기 분석대상 영상의 특징들 간의 유사도를 계산하여, 가장 큰 유사도를 갖는 기준 영상을 출력하는 단계를 더 포함하는,방법.

4

제1항에 있어서,상기 (d) 단계 이후에,상기 제1 기준 영상을 제외한 나머지 기준 영상들에 대해 상기 (b), (c) 및 (d) 단계를 반복하여, 계산된 유사도 중 가장 큰 유사도를 갖는 기준 영상을 출력하는 단계를 더 포함하는,방법.

5

제1항에 있어서,상기 (a) 단계 이전에, 트레이닝 단계를 더 포함하고,상기 트레이닝 단계는,행위 정보를 포함하는 앵커(anchor) 영상, 상기 앵커 영상과 동일한 행위 정보를 포함하는 포지티브(positive) 영상 및 상기 앵커 영상과 상이한 행위 정보를 포함하는 네거티브(negative) 영상을 입력받는 단계;상기 앵커 영상과 포지티브 영상 간의 유사도 및 상기 앵커 영상과 네거티브 영상 간의 유사도를 계산하는 단계; 및상기 계산된 유사도들을 이용하여 손실 함수를 계산하는 단계를 포함하는,방법.

6

제1항에 있어서,상기 (a) 단계에서,상기 분석대상 영상은 외부로부터 입력받고,상기 기준 영상은 상기 기준 영상이 기저장된 데이터베이스부로부터 입력받는,방법.

7

제1항에 있어서,상기 (b) 단계는,각각의 프레임에 대해 복수 개의 특징 맵(feature map)을 생성하는 단계;상기 특징 맵들 중 사이즈가 같은 특징 맵들을 블록화하는 단계; 및하나의 블록 내부에 포함된 각 계층의 특징 맵이 그 이전에 배치된 모든 계층의 특징 맵들의 출력값을 입력받아 특징들을 추출하는 단계를 포함하는,방법.

8

제1항에 있어서,상기 (c) 단계는,K-평균 클러스터링(K-means clustering) 알고리즘을 이용하여 핵심 특징들을 추출하는 단계를 포함하는,방법.

9

삭제

10

제1항 내지 제8항 중 어느 한 항에 기재된 방법을 컴퓨터 상에서 수행하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.

11

분석대상 영상 및 기준 영상을 입력받는 입력 모듈;인공 신경망을 이용하여 상기 입력받은 분석대상 영상의 특징들(features)과 상기 입력받은 기준 영상의 특징들을 프레임 단위로 추출하고, 상기 추출된 특징들 중 일부인 핵심 특징들을 각각 추출하는 특징 추출 모듈; 및 상기 추출된 핵심 특징들 중 상기 분석대상 영상 및 기준 영상에서 행위가 발생한 구간에 속하는 핵심 특징들간의 유사도를 계산하고, 유사도가 계산된 기준 영상들 중 가장 큰 유사도를 갖는 기준 영상을 출력하는 검증 모듈을 포함하고,상기 핵심 특징은 상기 프레임 단위로 추출된 특징들 중, K-평균 클러스터링(K-means clustering) 알고리즘을 이용하여 추출된 일부 특징의 centroid 의 집합을 이루는 특징인, 행위 인식 장치.

12

제11항에 있어서,상기 기준 영상을 저장하는 데이터베이스부를 더 포함하는,행위 인식 장치.

13

제11항에 있어서, 상기 행위 인식 장치는 트레이닝 모듈을 더 포함하고,상기 트레이닝 모듈은, 행위 정보를 포함하는 앵커(anchor) 영상, 상기 앵커 영상과 동일한 행위 정보를 포함하는 포지티브(positive) 영상 및 상기 앵커 영상과 상이한 행위 정보를 포함하는 네거티브(negative) 영상으로부터 계산된 상기 앵커 영상과 포지티브 영상 간의 유사도 및 상기 앵커 영상과 네거티브 영상 간의 유사도를 입력받고,상기 입력받은 유사도들을 이용하여 손실 함수를 계산하여 상기 제1항의 행위 인식 방법을 트레이닝하는 것을 특징으로 하는,행위 인식 장치.

14

제11항에 있어서,상기 입력 모듈은,상기 분석대상 영상을 외부로부터 입력받고,상기 기준 영상을 데이터베이스부로부터 입력받는,행위 인식 장치.

15

제11항에 있어서,상기 특징 추출 모듈은,각각의 프레임에 대해 복수 개의 특징 맵(feature map)을 생성하고, 상기 특징 맵들 중 사이즈가 같은 특징 맵들을 블록화하고, 하나의 블록 내부에 포함된 각 계층의 특징 맵이 그 이전에 배치된 모든 계층의 특징 맵들의 출력값을 입력받아 특징들을 추출하는,행위 인식 장치.

16

제11항에 있어서,상기 특징 추출 모듈은,K-평균 클러스터링(K-means clustering) 알고리즘을 이용하여 핵심 특징들을 추출하는,행위 인식 장치.

17

삭제