본 연구의 목적은 자기지도 표현 학습을 통해 강건한 화자 인식 모델을 학습하는 것이다. 자기지도 화자 표현에 관한 최근 연구들은 대비 학습(contrastive learning)에 기반을 두고 있으며, 여기서는 동일 발화(utterance) 내 임베딩은 유사하게, 발화 간( across-utterance) 임베딩은 서로 다르게 유도한다. 그러나 동일 발화 내 구간들은 동일한 음향적 특성을 공유하므로, 채널 정보로부터 화자 정보를 분리하기가 어렵다. 이를 위해 본 연구에서는, 적용되는 증강(augmentation)에 대해서는 불변(invariant)성을 갖되 화자 정보에 대해 판별적(discriminative)이 되도록 네트워크를 학습하는 증강 적대적 학습(augmentation adversarial training) 전략을 제안한다. 증강은 음향적 특성을 모사하므로, 증강에 대해 불변하도록 네트워크를 학습하는 것은 일반적으로 채널 정보에 대해서도 불변성을 갖도록 네트워크를 유도한다. VoxCeleb 및 VOiCES 데이터셋에 대한 광범위한 실험 결과, 자기지도를 사용한 기존 연구들에 비해 유의미한 성능 향상이 확인되었으며, 우리의 자기지도 모델 성능은 인간 수준을 크게 초과한다. 또한 화자 라벨이 존재하는 상황에서 증강 적대적 학습이 성능에 이점을 제공함을 보이기 위해 반지도(semi-supervised) 학습 실험도 수행하였다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.