Bridging the Gap Between Audio and Text Using Parallel-Attention for User-Defined Keyword Spotting | 정준선 교수 연구실 | 한국과학기술원 전기및전자공학부

정준선 교수 연구실

서비스 플랜

연구실 검색

프로젝트 공고

정부 과제 추천

AI 기반 기업 서칭

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 1

·2024

Bridging the Gap Between Audio and Text Using Parallel-Attention for User-Defined Keyword Spotting

Youkyum Kim, Jaemin Jung, Jihwan Park, Byeong-Yeol Kim, Joon Son Chung

IF 3.9IEEE Signal Processing Letters

초록

이 서한은 텍스트 등록(text enrollment)을 기반으로 음성 키워드를 정확하게 탐지하는 새로운 사용자 정의 키워드 스폿팅 프레임워크를 제안한다. 음성 데이터는 텍스트에 비해 추가적인 음향 정보를 지니므로, 이 두 양식(modality) 사이에는 차이가 존재한다. 이러한 문제를 해결하기 위해, 우리는 두 양식 모두에 대해 양식 내(intra) 및 양식 간(inter-modal) 정보를 효과적으로 포착하기 위해 병렬 아키텍처에서 자기-주의(self-attention) 및 교차-주의(cross-attention)를 활용하는 ParallelKWS를 제시한다. 또한 음성 및 텍스트 특징 간의 순차적 대응을 강제하는 음소 지속시간 기반 정렬 손실(alignment loss)을 제안한다. 광범위한 실험 결과, 제안하는 방법은 이전 연구에서 사용된 데이터셋 외에 추가 데이터를 통합하지 않으면서도, 여러 벤치마크 데이터셋에서 seen 도메인과 unseen 도메인 모두에 대해 최첨단(state-of-the-art) 성능을 달성함을 보여준다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Keyword spottingBridging (networking)Computer scienceSpottingSpeech recognitionNatural language processingInformation retrievalArtificial intelligenceComputer network

타입

article

IF / 인용수

3.9 / 1

원문

http://dx.doi.org/10.1109/lsp.2024.3442092

게재 연도

2024

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)