STaR: Distilling Speech Temporal Relation for Lightweight Speech Self-Supervised Learning Models | 김회린 교수 연구실 | 한국과학기술원 전기및전자공학부

|김회린 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Article|

인용수 3

·2024

STaR: Distilling Speech Temporal Relation for Lightweight Speech Self-Supervised Learning Models

Kangwook Jang, Sungnyun Kim, Hoirin Kim

초록

음성 자체지도학습(SSL) 모델에서 Transformer 기반 방법이 뛰어난 성능을 보이기는 하지만, 대규모 파라미터와 계산 비용으로 인해 활용하기에는 불리한 점이 있다. 본 연구에서는 STaR(음성 시간적 관계 distillation)로 음성 SSL 모델을 압축하는 방식을 제안한다. 각 음성 프레임의 표현을 직접 일치시키는 선행 연구와 달리, STaR 증류는 음성 프레임 간의 시간적 관계를 전달하며, 이는 제한된 수용 능력을 가진 경량 학생 모델에 더 적합하다. 우리는 세 가지 STaR 증류 목적함수를 탐색하고 최종 STaR 손실로 최선의 조합을 선택한다. HuBERT Base에서 증류한 본 모델은 SUPERB 벤치마크에서 전체 점수 79.8을 달성하였는데, 이는 최대 2,700만 파라미터를 갖는 모델들 중에서 가장 우수한 성능이다. 또한 본 방법이 다양한 음성 SSL 모델에 적용 가능하며, 파라미터를 추가로 줄인 경우에도 견고한 성능을 유지함을 보여준다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Computer scienceSpeech recognitionRelation (database)Star (game theory)Artificial intelligenceMathematics

타입

Article

IF / 인용수

- / 3

원문

https://doi.org/10.1109/icassp48485.2024.10447928

게재 연도

2024