Multimodal Transformer-Based Affective and Pain Recognition
연구 내용
영상·음성·자막 등 멀티모달 입력을 트랜스포머 융합과 라벨 수준 표현학습으로 결합하여 감정, 우울, 통증을 분류하는 연구
영상과 음성 등 서로 다른 모달리티의 정보를 결합해 감정과 상태를 추론하는 문제를 다룹니다. 입력 프레임, 오디오 신호, 텍스트 자막을 단일 트랜스포머 기반 구조로 처리하여 공통 표현을 학습하고, 멀티라벨 분류에는 라벨 수준 표현학습을 적용합니다. 대화 맥락에서는 화자 간·화자 내 관계를 그래프로 구성하고 관계 인식 어텐션과 GRU 기반 컨텍스트 전파를 결합해 Emotion Recognition in Conversation 성능을 개선합니다. 우울과 통증에서는 오디오-텍스트 또는 비디오- fNIRS를 대상으로 멀티모달 융합과 어텐션 기반 결합, 노이즈 전처리를 통해 분류 정확도를 높이는 방향으로 연구를 수행합니다.
관련 연구 성과
관련 논문
4편
관련 특허
0건
관련 프로젝트
0건
연구 흐름
초기에는 비디오 기반 멀티라벨 감정 인식을 위해 멀티모달 특징을 트랜스포머 융합으로 통합하고, 공통 표현을 강화하는 학습 전략을 정리했습니다. 이후 대화 데이터로 확장하여 화자 관계를 DAG 그래프로 모델링하고 잔차 기반 관계 인식 어텐션과 위치 인코딩을 적용해 화자 상호작용 맥락을 반영하는 방향으로 발전했습니다. 최근에는 우울과 통증 평가로 확장하여 오디오-텍스트 교차 모달 융합, 비디오- fNIRS 멀티모달 어텐션 결합, 신호 아티팩트 필터링을 적용하며 현장 적용을 고려한 경량화·일반화 관점을 병행하고 있습니다.
활용 가능성
활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.
관련 논문
구분
제목
Multi-Label Multimodal Emotion Recognition With Transformer-Based Fusion and Emotion-Level Representation Learning
Residual Relation-Aware Attention Deep Graph-Recurrent Model for Emotion Recognition in Conversation
A lightweight approach based on cross-modality for depression detection
Multimodal Model for Automated Pain Assessment: Leveraging Video and fNIRS