Augmentation Adversarial Training for Self-Supervised Speaker Representation Learning | 정준선 교수 연구실 | 한국과학기술원 전기및전자공학부

정준선 교수 연구실

서비스 플랜

연구실 검색

프로젝트 공고

정부 과제 추천

AI 기반 기업 서칭

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 16

·2022

Augmentation Adversarial Training for Self-Supervised Speaker Representation Learning

Jingu Kang, Jaesung Huh, Hee Soo Heo, Joon Son Chung

IF 7.5IEEE Journal of Selected Topics in Signal Processing

초록

본 연구의 목적은 자기지도 표현 학습을 통해 강건한 화자 인식 모델을 학습하는 것이다. 자기지도 화자 표현에 관한 최근 연구들은 대비 학습(contrastive learning)에 기반을 두고 있으며, 여기서는 동일 발화(utterance) 내 임베딩은 유사하게, 발화 간( across-utterance) 임베딩은 서로 다르게 유도한다. 그러나 동일 발화 내 구간들은 동일한 음향적 특성을 공유하므로, 채널 정보로부터 화자 정보를 분리하기가 어렵다. 이를 위해 본 연구에서는, 적용되는 증강(augmentation)에 대해서는 불변(invariant)성을 갖되 화자 정보에 대해 판별적(discriminative)이 되도록 네트워크를 학습하는 증강 적대적 학습(augmentation adversarial training) 전략을 제안한다. 증강은 음향적 특성을 모사하므로, 증강에 대해 불변하도록 네트워크를 학습하는 것은 일반적으로 채널 정보에 대해서도 불변성을 갖도록 네트워크를 유도한다. VoxCeleb 및 VOiCES 데이터셋에 대한 광범위한 실험 결과, 자기지도를 사용한 기존 연구들에 비해 유의미한 성능 향상이 확인되었으며, 우리의 자기지도 모델 성능은 인간 수준을 크게 초과한다. 또한 화자 라벨이 존재하는 상황에서 증강 적대적 학습이 성능에 이점을 제공함을 보이기 위해 반지도(semi-supervised) 학습 실험도 수행하였다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Computer scienceDiscriminative modelUtteranceSpeech recognitionArtificial intelligenceAdversarial systemSpeaker recognitionFeature learningRepresentation (politics)Invariant (physics)

타입

article

IF / 인용수

7.5 / 16

원문

https://doi.org/10.1109/jstsp.2022.3200915

게재 연도

2022

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)