설명가능 전이학습 기반 음성 감정인식과 얼굴-음성 교차모달 임베딩 연구

Explainable Transfer Learning for Speech Emotion Recognition and Face-Voice Multimodal Embedding

연구 내용

STFT 기반 전처리와 전이학습 앙상블을 바탕으로 음성 감정인식을 수행하고, Grad CAM·LIME 등으로 근거를 해석 가능하게 제시하는 연구

김태완 연구실은 음성 신호에서 감정 상태를 안정적으로 분류하고, 그 근거를 해석 가능하게 제시하는 설명가능 모델을 연구합니다. STFT 기반 스펙트로그램 전처리 후 시간축 중첩 구간을 Gaussian 분포로 표현하고, 분포 간 상관을 통해 불확실 학습 요소를 축소하는 전략을 사용합니다. VGGish와 YAMNet 계열의 전이학습 네트워크를 결합한 앙상블로 음성 환경 변동에 대한 적응성을 높이며, Grad CAM, LIME, occlusion sensitivity 같은 기법으로 분류 결과에 기여한 감정 관련 영역을 시각화·검증합니다. 더 나아가 얼굴과 음성의 교차모달 연관을 convex feature embedding으로 정렬해 멀티모달 특징공간을 구성합니다.

관련 프로젝트

0건

연구 흐름

초기에는 다중 음성 데이터셋을 사용해 일반화된 SER 모델을 만들고, 스펙트로그램 전처리와 전이학습 네트워크 결합을 통해 환경별 성능 변동을 줄이는 연구를 수행했습니다. 이어 분류 과정에서 발생하는 근거 불명확성을 개선하기 위해 Grad CAM의 시간영역 적용과 LIME, occlusion sensitivity를 병행하여 해석 가능성을 강화했습니다. 이후 음성 단일 모달을 확장해 얼굴-음성 간 교차모달 연관을 임베딩 학습으로 연결함으로써 멀티모달 기반 분석 가능성을 탐색하고 있습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

음성 기반 감정 모니터링
설명가능 SER 모델
전이학습 음성 특징 추출 파이프라인
음성-영상 교차 검색
상담·콜센터 감정 변화 분석
개인화 음성 적응 모듈
감정 구간 하이라이트 도구
멀티모달 임베딩 기반 상호검증
교육용 발화 데이터 분석
사용자 신뢰 향상 설명 모듈