약지도(weakly-supervised) 비디오 이상 탐지는 비디오 수준 라벨만을 사용한 학습 데이터로부터 프레임 수준의 이상을 검출하는 작업이다. 단일 백본 분기(single backbone branch)에서는 약한 라벨(weak labels)에 대한 최소한의 지도만으로 클래스 대표 특징을 탐색하기가 어렵다. 또한 실제 시나리오에서는 정상과 비정상의 경계가 모호하며 상황에 따라 달라진다. 예를 들어 동일한 달리기 동작을 보이는 사람이라 하더라도, 주변 환경이 놀이터인지 도로인지를 기준으로 이상성의 정도가 달라질 수 있다. 따라서 본 연구의 목적은 단일 분기에서 클래스 특징 간의 상대적 간격을 넓혀 차별적 특징을 추출하는 것이다. 제안하는 클래스-활성화 특징 학습(Class-Activate Feature Learning, CLAV)에서는 특징을 클래스에 따라 암묵적으로 활성화되는 가중치에 근거하여 추출하고, 이후 상대 거리 학습(relative distance learning)을 통해 그 간격을 확장한다. 더불어 복잡하고 다양한 장면에서 이상을 식별하기 위해서는 문맥(context)과 동작(motion) 간의 관계가 중요하므로, 시간적 의존성이나 동작 정보만을 활용하는 대신 주변 환경의 외관과 동작 간의 관계를 모델링하는 문맥-동작 상호연관 모듈(Context-Motion Interrelation Module, CoMo)을 제안한다. 제안 방법은 대규모의 실제 환경 데이터셋을 포함한 네 가지 벤치마크에서 SOTA 성능을 보였으며, 정성적 결과와 일반화 능력 분석을 통해 관계 정보(relational information)의 중요성을 입증한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.