기계적으로 생성된 소리는 산업 공정 제어 및 감시에 흔히 사용되며, 대개 시간–주파수 영역에서 선 스펙트럼(line spectra)으로 나타나는 협대역 조화(harmonic) 특징을 보인다. 합성곱 신경망(CNNs)이 선 스펙트럼 추출에 활용되어 왔으나, 고품질의 감독 학습 데이터가 부족한 경우가 많아 성능이 저하되는 경우가 흔하다. 이러한 한계를 해결하기 위해, 특징 간의 관계를 명시적으로 모델링하는 그래프 신경망(GNNs)을 탐구한다. GNNs 중에서도 그래프 합성곱 네트워크(graph convolutional networks, GCNs)는 계산 효율성으로 인해 두드러진다. 본 연구에서는 기계 소리를 그래프 표현으로부터 선 스펙트럼 특징을 효과적으로 추출하기 위해 가중치 텐서(weight tensor)로 보강된 GCN 모델을 제안한다. 본 접근법은 시간–주파수 마스크가 노이즈를 포함하여 감독 신호를 방해하는 약한 감독(weakly supervised) 시나리오에 맞추어 설계되었다. 텐서 곱 연산(tensor product operation)을 활용함으로써, 모델은 입력 그래프를 다차원 임베딩 공간(multi-dimensional embedding space)으로 투영하여, 최소한의 계산 부담으로도 다양하고 판별적인 표상들의 학습을 가능하게 한다. 오디오 및 수중 음향(underwater acoustic) 데이터셋에 대한 실험 결과, 본 방법은 완전 감독 기준선(fully supervised baselines)보다 성능이 우수하면서도 계산 요구량을 유의하게 감소시키는 것으로 나타났다. 이러한 결과는 실제 음향 처리 응용 분야에서 본 프레임워크의 효율성과 실용성을 뒷받침한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.