| 번호 | 청구항 |
|---|---|
| 9 | 제1항에 있어서, 상기 액션 인스턴스 생성부는상기 액션 인스턴스를 상기 액션에 관한 텍스트 기반의 동작설명으로 생성하는 것을 특징으로 하는 실시간 비디오 동작 검출 장치. |
| 1 | 비디오 프레임의 피처를 인코딩 하는 피처 인코더부;이전 시간의 이산 출력을 입력받는 결정 큐(Qd)의 출력, 상기 인코딩된 피처를 입력받는 제1 OAD (Online Action Detection) 모델의 출력과 연결되는 액션 큐(Qa)의 출력을 입력받아, 현재 시간의 이산 출력을 출력하는 컨텍스트 인지 에이전트부;상기 이전 시간의 이산 출력 및 현재 시간의 이산 출력을 기초로 해당 비디오 프레임들에 대하여 컨텍스트 인지 그룹핑을 수행하는 컨텍스트 인지 그룹핑부; 및상기 해당 비디오 프레임들에 관한 액션을 검출하여 액션 인스턴스를 생성하는 액션 인스턴스 생성부;를 포함하되,상기 컨텍스트 인지 에이전트부는 상기 결정 큐의 출력, 상기 액션 큐의 출력 및 상기 인코딩된 피처를 입력받는 제2 OAD 모델의 출력을 입력받아, 상기 현재 시간의 이산 출력을 출력하는 것을 특징으로 하는 실시간 비디오 동작 검출 장치. |
| 2 | 제1항에 있어서, 상기 피처 인코더부는기 설정된 프레임 간격마다 연속된 프레임들을 인코딩하여 프레임 피처를 생성하고 프레임 피처들에 관한 피처 시퀀스를 생성하는 것을 특징으로 하는 실시간 비디오 동작 검출 장치. |
| 3 | 제1항에 있어서, 상기 컨텍스트 인지 에이전트부는상기 제1 OAD 모델을 통해 상기 인코딩된 피처에 대한 액션 스코어를 상기 출력으로 결정하고, 상기 액션 스코어의 값은 상기 인코딩된 피처의 액션 정도에 해당하는 것을 특징으로 하는 실시간 비디오 동작 검출 장치. |
| 4 | 제3항에 있어서, 상기 컨텍스트 인지 에이전트부는상기 제1 OAD 모델을 LSTM (Long Short-Term Memory) 네트워크와 복수의 FC (Fully Connected) 레이어들로 구성된 바이너리 OAD 모델로 구현하는 것을 특징으로 하는 실시간 비디오 동작 검출 장치. |
| 5 | 삭제 |
| 6 | 제1항에 있어서, 상기 컨텍스트 인지 에이전트부는상기 제2 OAD 모델을 통해 상기 인코딩된 피처에 대한 클래스 확률을 상기 출력으로 결정하고, 상기 클래스 확률의 값은 상기 인코딩된 피처의 액션 시점에 해당할 가능성에 해당하는 것을 특징으로 하는 실시간 비디오 동작 검출 장치. |
| 7 | 제6항에 있어서, 상기 컨텍스트 인지 에이전트부는상기 제2 OAD 모델을 LSTM (Long Short-Term Memory) 네트워크와 복수의 FC (Fully Connected) 레이어들로 구성된 멀티-클래스 OAD 모델로 구현하는 것을 특징으로 하는 실시간 비디오 동작 검출 장치. |
| 8 | 제1항에 있어서, 상기 컨텍스트 인지 그룹핑부는상기 이산 출력의 전환 시점들을 검출하고, 상기 전환 시점들 사이에 있는 비디오 프레임들에 관해 상기 컨텍스트 인지 그룹핑을 수행하는 것을 특징으로 하는 실시간 비디오 동작 검출 장치. |
| 10 | 비디오 프레임의 피처를 인코딩 하는 단계;이전 시간의 이산 출력을 입력받는 결정 큐(Qd)의 출력, 상기 인코딩된 피처를 입력받는 제1 OAD (Online Action Detection) 모델의 출력과 연결되는 액션 큐(Qa)의 출력을 입력받아, 현재 시간의 이산 출력을 출력하는 단계;상기 이전 시간의 이산 출력 및 현재 시간의 이산 출력을 기초로 해당 비디오 프레임들에 대하여 컨텍스트 인지 그룹핑을 수행하는 단계; 및상기 해당 비디오 프레임들에 관한 액션을 검출하여 액션 인스턴스를 생성하는 단계를 포함하는 온라인 비디오의 컨텍스트 인지 그룹핑 단계;를 포함하되,상기 현재 시간의 이산 출력을 출력하는 단계는 상기 결정 큐의 출력, 상기 액션 큐의 출력 및 상기 인코딩된 피처를 입력받는 제2 OAD 모델의 출력을 입력받아, 상기 현재 시간의 이산 출력을 출력하는 단계를 포함하는 것을 특징으로 하는 실시간 비디오 동작 검출 방법. |
| 11 | 제10항에 있어서, 상기 피처를 인코딩 하는 단계는기 설정된 프레임 간격마다 연속된 프레임들을 인코딩하여 프레임 피처를 생성하고 프레임 피처들에 관한 피처 시퀀스를 생성하는 단계를 포함하는 것을 특징으로 하는 실시간 비디오 동작 검출 방법. |
| 12 | 제10항에 있어서, 상기 현재 시간의 이산 출력을 출력하는 단계는상기 제1 OAD 모델을 LSTM (Long Short-Term Memory) 네트워크와 복수의 FC (Fully Connected) 레이어들로 구성된 바이너리 OAD 모델로 구현하는 단계를 포함하는 것을 특징으로 하는 실시간 비디오 동작 검출 방법. |
| 13 | 삭제 |
| 14 | 제10항에 있어서, 상기 현재 시간의 이산 출력을 출력하는 단계는상기 제2 OAD 모델을 LSTM (Long Short-Term Memory) 네트워크와 복수의 FC (Fully Connected) 레이어들로 구성된 멀티-클래스 OAD 모델로 구현하는 단계를 포함하는 것을 특징으로 하는 실시간 비디오 동작 검출 방법. |
| 15 | 제10항에 있어서, 상기 컨텍스트 인지 그룹핑을 수행하는 단계는상기 이산 출력의 전환 시점들을 검출하고, 상기 전환 시점들 사이에 있는 비디오 프레임들에 관해 상기 컨텍스트 인지 그룹핑을 수행하는 단계를 포함하는 것을 특징으로 하는 실시간 비디오 동작 검출 방법. |
| 16 | 제10항에 있어서, 상기 액션 인스턴스를 생성하는 단계는상기 액션 인스턴스를 상기 액션에 관한 텍스트 기반의 동작설명으로 생성하는 단계를 포함하는 것을 특징으로 하는 실시간 비디오 동작 검출 방법. |