문맥 인지 비디오 인스턴스 세그먼테이션 방법
CONTEXT-AWARE VIDEO INSTANCE SEGMENTATION METHOD
특허 요약
본 개시의 일 실시예의 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램이 개시된다. 상기 컴퓨터 프로그램은, 상기 컴퓨터 프로그램은 비디오 시퀀스에서 객체를 추적하기 위한 이하의 방법들을 수행하도록 하며, 상기 방법은, 비디오 시퀀스에 포함된 복수의 프레임을 획득하는 단계; 상기 비디오 시퀀스의 각 프레임에 포함된 하나 이상의 객체에 대하여 문맥 인지 인스턴스 특징을 추출하는 단계; 상기 문맥 인지 인스턴스 특징에 기초하여 연속된 프레임 간 객체 인스턴스를 매칭하는 단계; 및 상기 매칭된 객체 인스턴스에 기초하여 프레임 간 객체 추적을 수행하는 단계; 를 포함할 수 있다.
청구항
번호청구항
1

컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램으로서, 상기 컴퓨터 프로그램은 비디오 시퀀스에서 객체를 추적하기 위한 이하의 방법들을 수행하도록 하며, 상기 방법은, 비디오 시퀀스에 포함된 복수의 프레임을 획득하는 단계;상기 비디오 시퀀스의 각 프레임에 포함된 하나 이상의 객체에 대하여 문맥 인지 인스턴스 특징을 추출하는 단계; 상기 문맥 인지 인스턴스 특징에 기초하여 연속된 프레임 간 객체 인스턴스를 매칭하는 단계; 및 상기 매칭된 객체 인스턴스에 기초하여 프레임 간 객체 추적을 수행하는 단계; 를 포함하는, 컴퓨터 프로그램.

2

제 1 항에 있어서, 상기 문맥 인지 인스턴스 특징을 추출하는 단계는, 상기 각 프레임에 세그먼테이션 네트워크를 적용하여 특징 맵을 생성하고, 객체 인스턴스 특징을 추출하는 단계;를 포함하는, 컴퓨터 프로그램.

3

제 2 항에 있어서, 상기 객체 인스턴스 특징을 추출하는 단계는, 수학식 5에 기초하는, 수학식 5:여기서, 는 프레임 t에 대한 특징 맵으로 H는 특징 맵의 높이, W는 특징 맵의 너비 및 C는 특징 맵의 채널이고, 는 프레임 t에서 검출된 N개의 객체에 대한 객체 인스턴스 특징(object instance feature)이고, 는 프레임 t에서 검출된 N개의 객체 각각에 대한 객체 분류 점수(object classification scores)로 각 객체 인스턴스에 대한 클래스별 분류 확률을 나타내며 K는 클래스의 수를 나타내고, 는 프레임 t에서 검출된 N개의 객체에 대한 객체 분할 마스크(object segmentation mask)이고, 그리고 는 입력된 비디오 프레임 를 처리하여 특징 맵, 객체 인스턴스 특징, 객체 분류 점수 및 객체 분할 마스크를 생성하는 세그먼테이션 네트워크인, 컴퓨터 프로그램.

4

제 1 항에 있어서, 상기 문맥 인지 인스턴스 특징을 추출하는 단계는, 상기 각 프레임에 세그먼테이션 네트워크를 적용하여 특징 맵 및 객체 마스크를 생성하고, 상기 특징 맵 및 상기 객체 마스크에 기초하여 객체 인스턴스 주변 특징을 추출하는 단계;를 포함하는, 컴퓨터 프로그램.

5

제 4 항에 있어서, 상기 객체 인스턴스 주변 특징을 추출하는 단계는, 상기 특징 맵에 문맥 필터를 적용하고 상기 객체 마스크에 엣지 필터를 적용하여 아다마르 곱(Hadamard product) 연산을 수행하여 상기 객체 인스턴스 주변 특징을 추출하는 단계; 를 포함하는,컴퓨터 프로그램.

6

제 5 항에 있어서, 상기 객체 인스턴스 주변 특징을 추출하는 단계는, 수학식 6에 기초하는, 수학식 6:여기서, 는 프레임 t에서 객체 n에 대한 인스턴스 주변 특징(instance surrounding feature)이고, 는 프레임 t에서 객체 n에 대한 필터링된 특징 맵(filtered feature map)으로 특징 맵에 대한 평균 필터를 적용한 후의 특징 맵이고, 는 프레임 t에서 객체 n에 대한 라플라시안 필터(Laplacian filter)를 적용한 후의 객체 분할 마스크이고, 그리고 1(・)은 분할 마스크의 해당 픽셀이 객체의 일부인지 여부를 판단하는 인디케이터 함수(indicator function)인, 컴퓨터 프로그램.

7

제 1 항에 있어서, 상기 문맥 인지 인스턴스 특징을 추출하는 단계는, 객체 인스턴스 특징 및 객체 인스턴스 주변 특징에 기초하여 상기 문맥 인지 인스턴스 특징을 추출하는 단계; 를 포함하는,컴퓨터 프로그램.

8

제 7 항에 있어서, 상기 문맥 인지 인스턴스 특징을 추출하는 단계는,상기 객체 인스턴스 특징 및 객체 인스턴스 주변 특징을 연결(concatenate)하여 다층 퍼셉트론(MLP: multi-layer perceptron)으로 연산하여 상기 문맥 인지 인스턴스 특징을 추출하는 단계; 를 포함하는,컴퓨터 프로그램.

9

제 8 항에 있어서, 상기 문맥 인지 인스턴스 특징을 추출하는 단계는, 수학식 7 에 기초하는, 수학식 7:여기서, 는 프레임 t에서 객체 n에 대해 최종적으로 생성된 문맥 인지 인스턴스 특징이고, MLP는 다층 퍼셉트론이고, Concat(・)는 벡터 연결 연산이고, 는 프레임 t에서 객체 n의 객체 인스턴스 특징이고, 그리고 는 프레임 t에서 객체 n의 객체 인스턴스 주변 특징인, 컴퓨터 프로그램.

10

제 9 항에 있어서, 상기 수학식 7 의 다층 퍼셉트론은 수학식 8로 학습되는, 수학식 8:여기서, 는 객체 인스턴스의 프레임 간 일관성을 유지하기 위한 문맥 인지 대조 손실(Context-Aware Contrastive Loss)이고, 는 임베딩 손실(Embedding Loss)이고, 는 프레임 t에서 객체 n에 해당하는 정렬된 문맥 인지 인스턴스 특징(Aligned Context-Aware Instance Feature)으로 매칭 알고리즘에 의해 프레임관 매칭된 객체의 특징을 의미하며, 는 객체 n에 대해 프레임 t에서의 최적 매칭을 나타내는 순열(permutation)인, 컴퓨터 프로그램.

11

제 1 항에 있어서, 상기 연속된 프레임 간 객체 인스턴스를 매칭하는 단계는, 이전 프레임의 문맥 인지 인스턴스 특징을 쿼리(Query)로, 현재 프레임의 문맥 인지 인스턴스 특징을 키(Key)로, 현재 프레임의 객체 인스턴스 특징을 벨류(Value)로 사용하여 문맥 인지 교차-어텐션(Context-Aware Cross-Attention)을 수행하는 단계; 를 포함하는,컴퓨터 프로그램.

12

제 11 항에 있어서, 상기 문맥 인지 교차-어텐션은 수학식 9에 기초하여 수행되는, 수학식 9:여기서, 는 이전 프레임과 현재 프레임의 문맥 인지 인스턴스 특징을 사용하여 현재 프레임의 객체 인스턴스 특징을 보정하는 문맥 인지 교차 어텐션 연산이고, 는 프레임 t-1에서의 정렬된 문맥 인지 인스턴스 특징이고, 는 프레임 t에서의 문맥 인지 인스턴스 특징이고, 는 프레임 t에서의 객체 인스턴스 특징인, 컴퓨터 프로그램.

13

제 1 항에 있어서, 상기 연속된 프레임 간 객체 인스턴스를 매칭하는 단계는, 상기 문맥 인지 인스턴스 특징 간의 유사도를 계산하고, 유사도를 기반으로 한 객체별 매칭을 수행하는 단계; 를 포함하는,컴퓨터 프로그램.

14

제 13 항에 있어서, 상기 객체별 매칭은 Hungarian 알고리즘을 이용하여 수행되는,컴퓨터 프로그램.

15

제 1 항에 있어서, 상기 연속된 프레임 간 객체 인스턴스를 매칭하는 단계는,이전 프레임의 문맥 인지 인스턴스 특징과 현제 프레임의 문맥 인지 인스턴스 특징을 정렬(align)하여 객체 인스턴스를 일관되게 추적하는 단계; 를 포함하는,컴퓨터 프로그램.

16

제 15 항에 있어서, 상기 문맥 인지 인스턴스 특징을 정렬하는 단계는, 수학식 10에 기초하여 수행되는, 수학식 10:여기서, 는 Hungarian 알고리즘을 사용하여 프레임 t에서 매칭된 객체 인스턴스 n의 특징 벡터를 나타내고, 그리고 는 객체 인스턴스 n과 매칭된 객체 인스턴스의 인덱스를 나타내는 Hungarian 알고리즘에 의해 결정된 최적 매칭 순열인, 컴퓨터 프로그램.

17

제 1 항에 있어서, 상기 연속된 프레임 간 객체 인스턴스를 매칭하는 단계는, 객체 인스턴스의 프레임 간 일관성을 유지하기 위해 프로토타입 크로스프레임 대조 손실(Prototypical Cross-Frame Contrastive Loss)을 계산하고 적용하는 단계;를 포함하는, 컴퓨터 프로그램.

18

제 17 항에 있어서, 상기 프로토타입 크로스프레임 대조 손실은 수학식 11 에 기초하여 계산되는,수학식 11: 여기서, 는 객체 인스턴스의 프레임 간 일관된 특징 표현을 유지하기 위해 사용되는 손실 함수인 프로토타입 크로스프레임 대조 손실이고, 는 프레임 t에서 객체 인스턴스 n에 대한 프로토타입 특징 백터 를 기반으로 계산되는 임베딩 손실이고, 는 프레임 t에서 객체 인스턴스 n에 대해 생성된 객체 인스턴스의 프로토타입 특징 벡터, 는 프레임 t의 특정 픽셀 (h,w)의 특징 맵의 픽셀 임베딩이고, 는 객체 n에 대한 분할 마스크의 픽셀 값을 나타내며, 그리고 1(・)은 분할 마스크의 해당 픽셀이 객체의 일부인지 여부를 판단하는 인디케이터 함수인, 컴퓨터 프로그램.

19

제 18 항에 있어서, 비디오 시퀀스의 각 프레임에 포함된 하나 이상의 객체에 대하여 문맥 인지 인스턴스 특징을 추출하기 위한 세그먼테이션 네트워크는, 상기 세그먼테이션 네트워크의 학습을 위하여 비디오 인스턴스 세분화 손실, 문맥 인지 대조 손실 및 프로토타입 크로스프레임 대조 손실을 포함하는 학습 손실 함수에 기초하여 학습되는, 컴퓨터 프로그램.

20

제 1 항에 있어서, 상기 연속된 프레임 간 객체 인스턴스를 매칭하는 단계는, 추적 네트워크(Tracking Network)를 사용하여 수행되며, 상기 추적 네트워크는 객체 인스턴스 간의 유사도 계산을 포함하는 추적 손실 함수(Tracking Loss Function)를 기반으로 학습되는,컴퓨터 프로그램.

21

제 20 항에 있어서, 상기 추적 손실 함수는 수학식 13 에 기초하는, 수학식 13: 여기서, 는 추적 네트워크의 학습을 위한 추적 손실 함수이고, 는 각 프레임에서의 객체 인스턴스의 수(ground truth instance)이고, 는 프레임 t에서 실제 객체 인스턴스와 예측된 객체 인스턴스간의 손실을 계산하기 위한 객체 인스턴스 손실이고, 는 특정 객체 인스턴스 k에 대해서 실제 값 과 예측된 값 간의 유사도를 계산하여 매칭 비용을 나타내는 프레임 간 객체 인스턴스 매칭을 위한 손실 함수이고, 는 객체 인스턴스 k가 처음으로 등장한 프레임을 나타내는, 컴퓨터 프로그램.

22

컴퓨터 장치의 하나 이상의 프로세서에서 수행되는 비디오 시퀀스에서 객체를 추적하기 위한 방법으로서, 비디오 시퀀스에 포함된 복수의 프레임을 획득하는 단계;상기 비디오 시퀀스의 각 프레임에 포함된 하나 이상의 객체에 대하여 문맥 인지 인스턴스 특징을 추출하는 단계; 상기 문맥 인지 인스턴스 특징에 기초하여 연속된 프레임 간 객체 인스턴스를 매칭하는 단계; 및 상기 매칭된 객체 인스턴스에 기초하여 프레임 간 객체 추적을 수행하는 단계; 를 포함하는, 방법.

23

컴퓨터 장치로서, 하나 이상의 프로세서; 및 상기 하나 이상의 프로세서에서 실행가능한 명령들을 저장하는 메모리;를 포함하고, 상기 하나 이상의 프로세서는, 비디오 시퀀스에 포함된 복수의 프레임을 획득하고,상기 비디오 시퀀스의 각 프레임에 포함된 하나 이상의 객체에 대하여 문맥 인지 인스턴스 특징을 추출하고, 상기 문맥 인지 인스턴스 특징에 기초하여 연속된 프레임 간 객체 인스턴스를 매칭하고, 그리고상기 매칭된 객체 인스턴스에 기초하여 프레임 간 객체 추적을 수행하는, 컴퓨터 장치.