Speech Emotion Recognition Using Deep Learning Transfer Models and Explainable Techniques | 김태완 교수 연구실 | 동덕여자대학교 데이터사이언스전공

|김태완 교수 연구실

홈

연구 영역

기본 정보

논문·특허

구성원

Article|

인용수 20

·2024

Speech Emotion Recognition Using Deep Learning Transfer Models and Explainable Techniques

Taewan Kim, Keun-Chang Kwak

IF 2.5 (2024) Applied Sciences

초록

본 연구는 기존의 음성 감정 인식(SER) 연구에 비해 더 높은 신뢰성을 정립하는 것을 목적으로 한다. 이는 불확실성 요소를 감소시키는 전처리 기법, 각 모델의 구조적 특징을 결합하는 모델, 그리고 다양한 설명 가능 기법의 적용을 통해 달성한다. 해석 가능성은 불확실한 학습 데이터를 줄이고, 데이터를 서로 다른 환경에 적용하며, 결과의 도출 근거를 설명하는 기법을 적용함으로써 보다 정확해질 수 있다. 본 연구에서는 세 가지 서로 다른 데이터셋을 사용하여 범용 모델을 설계하였으며, 각 음성은 STFT 전처리를 통해 스펙트로그램 이미지로 변환하였다. 스펙트로그램은 모델 입력 크기에 맞추기 위해 시간 영역에서 중첩(overlapping)을 두어 분할하였다. 각 분할 구간은 가우시안 분포로 표현되며, 분포 간 상관계수를 통해 데이터의 품질을 조사하였다. 그 결과 데이터의 규모가 축소되고 불확실성이 최소화되었다. VGGish와 YAMNet은 음성 처리와 함께 빈번히 사용되는 대표적인 사전학습(pretrained) 딥러닝 네트워크이다. 음성 신호 처리에서 이들 사전학습 모델을 배타적으로 단독 사용하는 것보다 상호 시너지적으로 활용하는 것이 유리한 경우가 많으며, 이에 따라 앙상블 딥 네트워크를 구축하였다. 그리고 마지막으로 분류 결과를 분석하기 위해 다양한 설명 가능 모델(Grad CAM, LIME, occlusion sensitivity)을 사용하였다. 본 모델은 다양한 환경의 음성에 대한 적응성을 보였고, 분류 정확도 87%를 달성하여 개별 모델보다 성능이 우수하였다. 또한 출력 결과는 설명 가능 모델을 통해 핵심 감정 영역을 추출한 후, 시간 영역에서 Grad CAM을 적용하여 청각 분석을 위한 오디오 파일로 변환함으로써 확인하였다. 본 연구를 통해 Grad CAM으로 생성되는 활성 영역의 불확실성을 향상시킨다. 이를 위해 선행 연구의 해석 가능성 능력을 적용하고, 효과적인 전처리 및 융합 모델을 함께 사용한다. 또한 다른 설명 가능 기법을 통해 보다 다양한 관점에서 분석할 수 있다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

SpectrogramComputer scienceSpeech recognitionArtificial intelligencePreprocessorPattern recognition (psychology)Reliability (semiconductor)Machine learning

타입

Article

IF / 인용수

2.5 / 20

원문

https://doi.org/10.3390/app14041553

게재 연도

2024