잡음에 강인한 화자 검증은 음성 향상(SE)과 화자 검증(SV)의 공동 학습을 활용하여 견고성을 향상시킨다. 그러나 기존의 접근법들은 암묵적인 잡음 억제에 의존하는 경우가 많으며, 학습 과정에서 잡음을 음성 특성과 명시적으로 구분하지 않기 때문에 잡음을 화자 특성으로부터 분리하는 데 어려움이 있다. SE와 SV를 통합하면 도움이 되지만, 잡음을 효과적으로 처리하는 데에는 여전히 한계가 있다. 한편 최근의 SE 연구들은 단순히 억제하는 것에 그치지 않고 잡음을 명시적으로 모델링하는 것이 잡음 내성을 향상시킨다고 시사한다. 이를 반영하여 본 연구에서는 ParaNoise-SV를 제안한다. ParaNoise-SV는 잡음 추출(NE) 네트워크와 음성 향상(SE) 네트워크의 두 개의 U-Net을 결합한다. NE U-Net은 잡음을 명시적으로 모델링하는 반면, SE U-Net은 병렬 연결을 통해 NE로부터의 지도를 받아 음성을 정교화함으로써 화자와 관련된 특징을 보존한다. 실험 결과, ParaNoise-SV는 기존의 공동 SE-SV 모델들에 비해 상대적으로 8.4% 더 낮은 동등오류율(EER)을 달성함을 보여주었다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.