본 논문에서는 지능형 로봇 환경에서 인간-로봇 상호작용(HRI)을 위한 심층 학습 기반 음원 위치 추정(Sound Source Localization, SSL)을 제안한다. 제안하는 SSL 방법은 세 단계로 구성된다. 첫 번째 단계에서는 로봇 환경에서 잡음과 잔향을 최소화하기 위해 음원을 전처리한다. 로봇에 장착된 마이크 어레이의 음원으로부터 배경의 영향을 최소화하는 데 필요한 음원의 원래 성분만을 포함하는 여기원 정보(Excitation source information, ESI)를 추출한다. 여기서 선형 예측 잔차(linear prediction residual)를 ESI로 사용한다. 이어서 각 음원의 ESI 신호를 이용하여 인접한 마이크 쌍 각각 사이의 교차상관 신호(cross-correlation signal)를 계산한다. 잡음의 영향을 최소화하기 위해 위상 변환을 포함한 일반화 교차상관(Generalized Cross-Correlation with the phase transform, GCC-PHAT) 알고리즘을 사용한다. 두 번째 단계에서는 도달시간(time difference of arrival, TDOA)을 이용하여 각 인접 마이크 쌍 사이에서 계산된 교차상관 신호와 음원 위치를 독립적으로 학습할 수 있는 단일 채널, 다중 입력(convolutional neural network) 합성곱 신경망을 설계한다. 세 번째 단계에서는 제안된 네트워크로 학습한 후 음원 위치를 분류한다. 기존 연구들은 주로 다양한 특징을 입력으로 사용하고 이를 다중 채널에 적층하여 알고리즘을 복잡하게 만들었으며, 또한 다중 채널 입력만으로는 각 음원 간의 상호 관련성을 명확히 학습하기에 충분하지 않을 수 있다. 이러한 문제를 해결하기 위해 각 음원 간의 교차상관 신호(cross-correlation signal)만을 네트워크 입력으로 사용한다. 제안 방법은 로봇 환경에서 획득한 한국전자통신연구원-음원 위치 추정(Electronics and Telecommunications Research Institute-Sound Source Localization, ETRI-SSL) 데이터베이스에서 검증되었다. 실험 결과, 제안된 방법은 기존 연구에 비해 8.75% 더 높은 성능을 보였다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.