본 논문은 인간의 신경 처리 과정을 모방하여 비디오를 인간의 정서 범주로 자동 분류하는 방법을 제안한다. 이 방법에서는 정서 특이적인 뇌파(electroencephalography, EEG) 특성이 시청각 자극을 통해 생성된다. 제안된 방법에서는 먼저, 피험자가 비디오를 시청하는 동안 생성되는 EEG 신호로부터 샘플-어텐션 기반 딥 뉴럴 네트워크 인코더를 사용하여 정교한 정서 특성을 추출한다. 다음으로, 추출된 정서 EEG 특성과 해당 비디오의 콘텐츠로부터 추출된 시청각 특성 간의 직접 매핑 관계를 딥 빌리프 네트워크를 통해 학습한다. 실제 적용을 위해서는 입력 비디오에 대응하는 EEG 특성을, 인간의 EEG 신호를 측정하지 않고 기계가 학습한 능력을 바탕으로 자동 생성한 뒤, 이를 세그먼트-어텐션 기반 딥 뉴럴 네트워크 디코더에 적용하여 비디오의 정서 분류를 수행한다. 실험 결과, 제안된 방법은 비디오의 네 가지 정서 범주를 분류하는 데 평균 정확도 약 95%로 기존 방법들보다 유의하게 우수함을 보였다. 또한 자동화된 정서 비디오 분류와 관련하여, 우리의 인공 정서 EEG 특성 기반 접근법은 EEG를 직접 측정하는 모델들과 견줄 만한 경쟁력 있는 성능을 보였으며, 다양한 시청각 데이터 세트로 일반화될 수 있다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.