키워드를 검출하는 전자 장치 및 이의 동작 방법
ELECTRONIC APPARATUS OF DETECTING KEYWORD AND OPERATING METHOD THEREOF
특허 요약
키워드를 검출하는 전자 장치 및 이의 동작 방법이 개시된다. 일 실시예에 따른 방법은, 상기 키워드에 대응되는 텍스트 데이터(text data)에 기초하여, 상기 텍스트 데이터의 특징(feature)에 관한 제1 임베딩 벡터(embedding vector)를 생성하는 동작과, 음성 데이터(speech data)에 기초하여, 상기 음성 데이터의 특징에 관한 제2 임베딩 벡터를 생성하는 동작과, 상기 제1 임베딩 벡터 및 상기 제2 임베딩 벡터에 기초하여, 상기 텍스트 데이터와 상기 음성 데이터를 융합한 복수의 어텐션 특징 맵들(attention feature maps)을 획득하는 동작과, 상기 복수의 어텐션 특징 맵들에 기초하여, 상기 음성 데이터가 상기 텍스트 데이터에 대응되는지 여부를 판단하는 동작을 포함할 수 있다.
청구항
번호청구항
1

키워드(keyword)를 검출하는 방법에 있어서,상기 키워드에 대응되는 텍스트 데이터(text data)에 기초하여, 상기 텍스트 데이터의 특징(feature)에 관한 제1 임베딩 벡터(embedding vector)를 생성하는 동작;음성 데이터(speech data)에 기초하여, 상기 음성 데이터의 특징에 관한 제2 임베딩 벡터를 생성하는 동작;상기 제1 임베딩 벡터 및 상기 제2 임베딩 벡터에 기초하여, 상기 텍스트 데이터와 상기 음성 데이터를 융합한 복수의 어텐션 특징 맵들(attention feature maps)을 획득하는 동작; 및상기 복수의 어텐션 특징 맵들에 기초하여, 상기 음성 데이터가 상기 텍스트 데이터에 대응되는지 여부를 판단하는 동작을 포함하는, 방법.

2

제1항에 있어서,상기 복수의 어텐션 특징 맵들은,제1 어텐션 특징 맵, 제2 어텐션 특징 맵, 및 제3 어텐션 특징 맵을 포함하고,상기 제1 어텐션 특징 맵, 상기 제2 어텐션 특징 맵, 및 상기 제3 어텐션 특징 맵은,상기 텍스트 데이터와 상기 음성 데이터를 융합하는 방법에 따라 구분되는 것인, 방법.

3

제2항에 있어서,상기 복수의 어텐션 특징 맵들을 획득하는 동작은,상기 제1 임베딩 벡터 및 상기 제2 임베딩 벡터를 연결(concatenate)하여 제3 임베딩 벡터를 생성하는 동작; 및상기 제1 임베딩 벡터, 상기 제2 임베딩 벡터, 및 상기 제3 임베딩 벡터 중 하나 이상에 기초하여, 상기 복수의 어텐션 특징 맵들을 생성하는 동작을 포함하는, 방법.

4

제3항에 있어서,상기 제1 어텐션 특징 맵은,상기 제2 임베딩 벡터를 키(key) 및 밸류(value)로 사용하고, 상기 제1 임베딩 벡터를 쿼리(query)로 사용하는 크로스 어텐션 레이어(cross attention layer)를 통해 획득되는 것인, 방법.

5

제4항에 있어서,상기 크로스 어텐션 레이어는,상기 음성 데이터의 음소 지속 시간(phoneme duration)에 관한 데이터에 기초하여, 상기 음성 데이터와 상기 텍스트 데이터의 시퀀스(sequence)를 정렬하도록 학습된 것인, 방법.

6

제3항에 있어서,상기 제2 어텐션 특징 맵은,상기 제3 임베딩 벡터를 키, 밸류 및 쿼리로 사용하는 셀프 어텐션 레이어(self-attention layer)를 통해 획득되는 것인, 방법.

7

제3항에 있어서,상기 제3 어텐션 특징 맵은,상기 제1 임베딩 벡터를 키 및 밸류로 사용하고, 상기 제2 임베딩 벡터를 쿼리로 사용하는 크로스 어텐션 레이어(cross attention layer)를 통해 획득되는 것인, 방법.

8

제2항에 있어서,상기 음성 데이터가 상기 텍스트 데이터에 대응되는지 여부를 판단하는 동작은,상기 제1 어텐션 특징 맵, 상기 제2 어텐션 특징 맵, 및 상기 제3 어텐션 특징 맵을 연결하여, 융합 어텐션 특징 맵을 생성하는 동작; 및상기 융합 어텐션 특징 맵에 기초하여, 상기 음성 데이터가 상기 텍스트 데이터에 대응될 확률을 계산하는 동작을 포함하는, 방법.

9

키워드(keyword)를 검출하는 전자 장치에 있어서,프로세서 및인스트럭션들을 저장하는 메모리를 포함하고,상기 인스트럭션들은, 상기 프로세서에 의해 실행될 때 상기 전자 장치로 하여금,상기 키워드에 대응되는 텍스트 데이터(text data)에 기초하여, 상기 텍스트 데이터의 특징(feature)에 관한 제1 임베딩 벡터(embedding vector)를 생성하고,음성 데이터(speech data)에 기초하여, 상기 음성 데이터의 특징에 관한 제2 임베딩 벡터를 생성하고,상기 제1 임베딩 벡터 및 상기 제2 임베딩 벡터에 기초하여, 상기 텍스트 데이터와 상기 음성 데이터를 융합한 복수의 어텐션 특징 맵들(attention feature maps)을 획득하고,상기 복수의 어텐션 특징 맵들에 기초하여, 상기 음성 데이터가 상기 텍스트 데이터에 대응되는지 여부를 판단하도록 하는, 전자 장치.

10

제9항에 있어서,상기 복수의 어텐션 특징 맵들은,제1 어텐션 특징 맵, 제2 어텐션 특징 맵, 및 제3 어텐션 특징 맵을 포함하고,상기 제1 어텐션 특징 맵, 상기 제2 어텐션 특징 맵, 및 상기 제3 어텐션 특징 맵은,상기 텍스트 데이터와 상기 음성 데이터를 융합하는 방법에 따라 구분되는 것인, 전자 장치.

11

제10항에 있어서,상기 인스트럭션들은, 상기 프로세서에 의해 실행될 때 상기 전자 장치로 하여금,상기 제1 임베딩 벡터 및 상기 제2 임베딩 벡터를 연결(concatenate)하여 제3 임베딩 벡터를 생성하고,상기 제1 임베딩 벡터, 상기 제2 임베딩 벡터, 및 상기 제3 임베딩 벡터 중 하나 이상에 기초하여, 상기 복수의 어텐션 특징 맵들을 생성하도록 하는, 전자 장치.

12

제11항에 있어서,상기 제1 어텐션 특징 맵은,상기 제1 임베딩 벡터를 키(key) 및 밸류(value)로 사용하고, 상기 제2 임베딩 벡터를 쿼리(query)로 사용하는 크로스 어텐션 레이어(cross attention layer)를 통해 획득되는 것인, 전자 장치.

13

제12항에 있어서,상기 크로스 어텐션 레이어는,상기 음성 데이터의 음소 지속 시간(phoneme duration)에 관한 데이터에 기초하여, 상기 음성 데이터와 상기 텍스트 데이터의 시퀀스(sequence)를 정렬하도록 학습된 것인, 전자 장치.

14

제11항에 있어서,상기 제2 어텐션 특징 맵은,상기 제3 임베딩 벡터를 키, 밸류 및 쿼리로 사용하는 셀프 어텐션 레이어(self-attention layer)를 통해 획득되는 것인, 전자 장치.

15

제11항에 있어서,상기 제3 어텐션 특징 맵은,상기 제2 임베딩 벡터를 키 및 밸류로 사용하고, 상기 제1 임베딩 벡터를 쿼리로 사용하는 크로스 어텐션 레이어(cross attention layer)를 통해 획득되는 것인, 전자 장치.

16

제10항에 있어서,상기 인스트럭션들은, 상기 프로세서에 의해 실행될 때 상기 전자 장치로 하여금,상기 제1 어텐션 특징 맵, 상기 제2 어텐션 특징 맵, 및 상기 제3 어텐션 특징 맵을 연결하여, 융합 어텐션 특징 맵을 생성하고,상기 융합 어텐션 특징 맵에 기초하여, 상기 음성 데이터가 상기 텍스트 데이터에 대응될 확률을 계산하도록 하는, 전자 장치.