음성 자체지도학습(SSL) 모델에서 Transformer 기반 방법이 뛰어난 성능을 보이기는 하지만, 대규모 파라미터와 계산 비용으로 인해 활용하기에는 불리한 점이 있다. 본 연구에서는 STaR(음성 시간적 관계 distillation)로 음성 SSL 모델을 압축하는 방식을 제안한다. 각 음성 프레임의 표현을 직접 일치시키는 선행 연구와 달리, STaR 증류는 음성 프레임 간의 시간적 관계를 전달하며, 이는 제한된 수용 능력을 가진 경량 학생 모델에 더 적합하다. 우리는 세 가지 STaR 증류 목적함수를 탐색하고 최종 STaR 손실로 최선의 조합을 선택한다. HuBERT Base에서 증류한 본 모델은 SUPERB 벤치마크에서 전체 점수 79.8을 달성하였는데, 이는 최대 2,700만 파라미터를 갖는 모델들 중에서 가장 우수한 성능이다. 또한 본 방법이 다양한 음성 SSL 모델에 적용 가능하며, 파라미터를 추가로 줄인 경우에도 견고한 성능을 유지함을 보여준다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.