RnDcircle

번호	청구항
1	컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램으로서, 상기 컴퓨터 프로그램은 비디오 시퀀스에서 객체를 추적하기 위한 이하의 방법들을 수행하도록 하며, 상기 방법은, 비디오 시퀀스에 포함된 복수의 프레임을 획득하는 단계;상기 비디오 시퀀스의 각 프레임에 포함된 하나 이상의 객체에 대하여 문맥 인지 인스턴스 특징을 추출하는 단계; 상기 문맥 인지 인스턴스 특징에 기초하여 연속된 프레임 간 객체 인스턴스를 매칭하는 단계; 및 상기 매칭된 객체 인스턴스에 기초하여 프레임 간 객체 추적을 수행하는 단계; 를 포함하는, 컴퓨터 프로그램.
2	제 1 항에 있어서, 상기 문맥 인지 인스턴스 특징을 추출하는 단계는, 상기 각 프레임에 세그먼테이션 네트워크를 적용하여 특징 맵을 생성하고, 객체 인스턴스 특징을 추출하는 단계;를 포함하는, 컴퓨터 프로그램.
3	제 2 항에 있어서, 상기 객체 인스턴스 특징을 추출하는 단계는, 수학식 5에 기초하는, 수학식 5:여기서, 는 프레임 t에 대한 특징 맵으로 H는 특징 맵의 높이, W는 특징 맵의 너비 및 C는 특징 맵의 채널이고, 는 프레임 t에서 검출된 N개의 객체에 대한 객체 인스턴스 특징(object instance feature)이고, 는 프레임 t에서 검출된 N개의 객체 각각에 대한 객체 분류 점수(object classification scores)로 각 객체 인스턴스에 대한 클래스별 분류 확률을 나타내며 K는 클래스의 수를 나타내고, 는 프레임 t에서 검출된 N개의 객체에 대한 객체 분할 마스크(object segmentation mask)이고, 그리고 는 입력된 비디오 프레임 를 처리하여 특징 맵, 객체 인스턴스 특징, 객체 분류 점수 및 객체 분할 마스크를 생성하는 세그먼테이션 네트워크인, 컴퓨터 프로그램.
4	제 1 항에 있어서, 상기 문맥 인지 인스턴스 특징을 추출하는 단계는, 상기 각 프레임에 세그먼테이션 네트워크를 적용하여 특징 맵 및 객체 마스크를 생성하고, 상기 특징 맵 및 상기 객체 마스크에 기초하여 객체 인스턴스 주변 특징을 추출하는 단계;를 포함하는, 컴퓨터 프로그램.
5	제 4 항에 있어서, 상기 객체 인스턴스 주변 특징을 추출하는 단계는, 상기 특징 맵에 문맥 필터를 적용하고 상기 객체 마스크에 엣지 필터를 적용하여 아다마르 곱(Hadamard product) 연산을 수행하여 상기 객체 인스턴스 주변 특징을 추출하는 단계; 를 포함하는,컴퓨터 프로그램.
6	제 5 항에 있어서, 상기 객체 인스턴스 주변 특징을 추출하는 단계는, 수학식 6에 기초하는, 수학식 6:여기서, 는 프레임 t에서 객체 n에 대한 인스턴스 주변 특징(instance surrounding feature)이고, 는 프레임 t에서 객체 n에 대한 필터링된 특징 맵(filtered feature map)으로 특징 맵에 대한 평균 필터를 적용한 후의 특징 맵이고, 는 프레임 t에서 객체 n에 대한 라플라시안 필터(Laplacian filter)를 적용한 후의 객체 분할 마스크이고, 그리고 1(・)은 분할 마스크의 해당 픽셀이 객체의 일부인지 여부를 판단하는 인디케이터 함수(indicator function)인, 컴퓨터 프로그램.
7	제 1 항에 있어서, 상기 문맥 인지 인스턴스 특징을 추출하는 단계는, 객체 인스턴스 특징 및 객체 인스턴스 주변 특징에 기초하여 상기 문맥 인지 인스턴스 특징을 추출하는 단계; 를 포함하는,컴퓨터 프로그램.
8	제 7 항에 있어서, 상기 문맥 인지 인스턴스 특징을 추출하는 단계는,상기 객체 인스턴스 특징 및 객체 인스턴스 주변 특징을 연결(concatenate)하여 다층 퍼셉트론(MLP: multi-layer perceptron)으로 연산하여 상기 문맥 인지 인스턴스 특징을 추출하는 단계; 를 포함하는,컴퓨터 프로그램.
9	제 8 항에 있어서, 상기 문맥 인지 인스턴스 특징을 추출하는 단계는, 수학식 7 에 기초하는, 수학식 7:여기서, 는 프레임 t에서 객체 n에 대해 최종적으로 생성된 문맥 인지 인스턴스 특징이고, MLP는 다층 퍼셉트론이고, Concat(・)는 벡터 연결 연산이고, 는 프레임 t에서 객체 n의 객체 인스턴스 특징이고, 그리고 는 프레임 t에서 객체 n의 객체 인스턴스 주변 특징인, 컴퓨터 프로그램.
10	제 9 항에 있어서, 상기 수학식 7 의 다층 퍼셉트론은 수학식 8로 학습되는, 수학식 8:여기서, 는 객체 인스턴스의 프레임 간 일관성을 유지하기 위한 문맥 인지 대조 손실(Context-Aware Contrastive Loss)이고, 는 임베딩 손실(Embedding Loss)이고, 는 프레임 t에서 객체 n에 해당하는 정렬된 문맥 인지 인스턴스 특징(Aligned Context-Aware Instance Feature)으로 매칭 알고리즘에 의해 프레임관 매칭된 객체의 특징을 의미하며, 는 객체 n에 대해 프레임 t에서의 최적 매칭을 나타내는 순열(permutation)인, 컴퓨터 프로그램.
11	제 1 항에 있어서, 상기 연속된 프레임 간 객체 인스턴스를 매칭하는 단계는, 이전 프레임의 문맥 인지 인스턴스 특징을 쿼리(Query)로, 현재 프레임의 문맥 인지 인스턴스 특징을 키(Key)로, 현재 프레임의 객체 인스턴스 특징을 벨류(Value)로 사용하여 문맥 인지 교차-어텐션(Context-Aware Cross-Attention)을 수행하는 단계; 를 포함하는,컴퓨터 프로그램.
12	제 11 항에 있어서, 상기 문맥 인지 교차-어텐션은 수학식 9에 기초하여 수행되는, 수학식 9:여기서, 는 이전 프레임과 현재 프레임의 문맥 인지 인스턴스 특징을 사용하여 현재 프레임의 객체 인스턴스 특징을 보정하는 문맥 인지 교차 어텐션 연산이고, 는 프레임 t-1에서의 정렬된 문맥 인지 인스턴스 특징이고, 는 프레임 t에서의 문맥 인지 인스턴스 특징이고, 는 프레임 t에서의 객체 인스턴스 특징인, 컴퓨터 프로그램.
13	제 1 항에 있어서, 상기 연속된 프레임 간 객체 인스턴스를 매칭하는 단계는, 상기 문맥 인지 인스턴스 특징 간의 유사도를 계산하고, 유사도를 기반으로 한 객체별 매칭을 수행하는 단계; 를 포함하는,컴퓨터 프로그램.
14	제 13 항에 있어서, 상기 객체별 매칭은 Hungarian 알고리즘을 이용하여 수행되는,컴퓨터 프로그램.
15	제 1 항에 있어서, 상기 연속된 프레임 간 객체 인스턴스를 매칭하는 단계는,이전 프레임의 문맥 인지 인스턴스 특징과 현제 프레임의 문맥 인지 인스턴스 특징을 정렬(align)하여 객체 인스턴스를 일관되게 추적하는 단계; 를 포함하는,컴퓨터 프로그램.
16	제 15 항에 있어서, 상기 문맥 인지 인스턴스 특징을 정렬하는 단계는, 수학식 10에 기초하여 수행되는, 수학식 10:여기서, 는 Hungarian 알고리즘을 사용하여 프레임 t에서 매칭된 객체 인스턴스 n의 특징 벡터를 나타내고, 그리고 는 객체 인스턴스 n과 매칭된 객체 인스턴스의 인덱스를 나타내는 Hungarian 알고리즘에 의해 결정된 최적 매칭 순열인, 컴퓨터 프로그램.
17	제 1 항에 있어서, 상기 연속된 프레임 간 객체 인스턴스를 매칭하는 단계는, 객체 인스턴스의 프레임 간 일관성을 유지하기 위해 프로토타입 크로스프레임 대조 손실(Prototypical Cross-Frame Contrastive Loss)을 계산하고 적용하는 단계;를 포함하는, 컴퓨터 프로그램.
18	제 17 항에 있어서, 상기 프로토타입 크로스프레임 대조 손실은 수학식 11 에 기초하여 계산되는,수학식 11: 여기서, 는 객체 인스턴스의 프레임 간 일관된 특징 표현을 유지하기 위해 사용되는 손실 함수인 프로토타입 크로스프레임 대조 손실이고, 는 프레임 t에서 객체 인스턴스 n에 대한 프로토타입 특징 백터 를 기반으로 계산되는 임베딩 손실이고, 는 프레임 t에서 객체 인스턴스 n에 대해 생성된 객체 인스턴스의 프로토타입 특징 벡터, 는 프레임 t의 특정 픽셀 (h,w)의 특징 맵의 픽셀 임베딩이고, 는 객체 n에 대한 분할 마스크의 픽셀 값을 나타내며, 그리고 1(・)은 분할 마스크의 해당 픽셀이 객체의 일부인지 여부를 판단하는 인디케이터 함수인, 컴퓨터 프로그램.
19	제 18 항에 있어서, 비디오 시퀀스의 각 프레임에 포함된 하나 이상의 객체에 대하여 문맥 인지 인스턴스 특징을 추출하기 위한 세그먼테이션 네트워크는, 상기 세그먼테이션 네트워크의 학습을 위하여 비디오 인스턴스 세분화 손실, 문맥 인지 대조 손실 및 프로토타입 크로스프레임 대조 손실을 포함하는 학습 손실 함수에 기초하여 학습되는, 컴퓨터 프로그램.
20	제 1 항에 있어서, 상기 연속된 프레임 간 객체 인스턴스를 매칭하는 단계는, 추적 네트워크(Tracking Network)를 사용하여 수행되며, 상기 추적 네트워크는 객체 인스턴스 간의 유사도 계산을 포함하는 추적 손실 함수(Tracking Loss Function)를 기반으로 학습되는,컴퓨터 프로그램.
21	제 20 항에 있어서, 상기 추적 손실 함수는 수학식 13 에 기초하는, 수학식 13: 여기서, 는 추적 네트워크의 학습을 위한 추적 손실 함수이고, 는 각 프레임에서의 객체 인스턴스의 수(ground truth instance)이고, 는 프레임 t에서 실제 객체 인스턴스와 예측된 객체 인스턴스간의 손실을 계산하기 위한 객체 인스턴스 손실이고, 는 특정 객체 인스턴스 k에 대해서 실제 값 과 예측된 값 간의 유사도를 계산하여 매칭 비용을 나타내는 프레임 간 객체 인스턴스 매칭을 위한 손실 함수이고, 는 객체 인스턴스 k가 처음으로 등장한 프레임을 나타내는, 컴퓨터 프로그램.
22	컴퓨터 장치의 하나 이상의 프로세서에서 수행되는 비디오 시퀀스에서 객체를 추적하기 위한 방법으로서, 비디오 시퀀스에 포함된 복수의 프레임을 획득하는 단계;상기 비디오 시퀀스의 각 프레임에 포함된 하나 이상의 객체에 대하여 문맥 인지 인스턴스 특징을 추출하는 단계; 상기 문맥 인지 인스턴스 특징에 기초하여 연속된 프레임 간 객체 인스턴스를 매칭하는 단계; 및 상기 매칭된 객체 인스턴스에 기초하여 프레임 간 객체 추적을 수행하는 단계; 를 포함하는, 방법.
23	컴퓨터 장치로서, 하나 이상의 프로세서; 및 상기 하나 이상의 프로세서에서 실행가능한 명령들을 저장하는 메모리;를 포함하고, 상기 하나 이상의 프로세서는, 비디오 시퀀스에 포함된 복수의 프레임을 획득하고,상기 비디오 시퀀스의 각 프레임에 포함된 하나 이상의 객체에 대하여 문맥 인지 인스턴스 특징을 추출하고, 상기 문맥 인지 인스턴스 특징에 기초하여 연속된 프레임 간 객체 인스턴스를 매칭하고, 그리고상기 매칭된 객체 인스턴스에 기초하여 프레임 간 객체 추적을 수행하는, 컴퓨터 장치.