화자 분할 모델 구현 장치, 화자 분할 방법 및 이를 포함하는 휴대용 단말기
APPARATUS FOR IMPLEMENTING MODEL FOR SPEAKER DIARIZATION, METHOD FOR SPEAKER DIARIZATION, AND PORTABLE TERMINAL INCLUDING THE SAME
특허 요약
화자 분할 모델 구현 장치는, 음성 인식 장치에 의해 검출된 복수의 화자들의 음성 신호들로부터 멜 스펙트로그램 데이터들을 생성하는 음성 신호 분석 모듈, 모션 인식 장치에 의해 검출된 화자들의 모션 센싱 신호들로부터 초광대역 신호 행렬 데이터들을 생성하는 모션 데이터 분석 모듈, 및 멜 스펙트로그램 데이터들 및 초광대역 신호 행렬 데이터들에 기초하여 특성값들을 추출하는 멀티 모달 학습 모듈, 특성값들을 이용하여 화자를 분할하는 화자 분할 모듈을 포함한다.
청구항
번호청구항
17

제16 항에 있어서, 상기 초광대역 센서는,상기 초광대역 송신 신호를 방출하고, 상기 초광대역 반사 신호를 수신하는 복수의 안테나들; 및상기 안테나들과 스위치를 통해 연결된 초광대역 송수신기;를 포함하는 휴대용 단말기.

1

음성 인식 장치에 의해 검출된 복수의 화자들의 음성 신호들로부터 멜 스펙트로그램 데이터들을 생성하는 음성 신호 분석 모듈;모션 인식 장치에 의해 검출된 상기 화자들의 모션 센싱 신호들로부터 초광대역 신호 행렬 데이터들을 생성하는 모션 데이터 분석 모듈; 및상기 멜 스펙트로그램 데이터들 및 상기 초광대역 신호 행렬 데이터들에 기초하여 특성값들을 추출하는 멀티 모달 학습 모듈;상기 특성값들을 이용하여 화자를 분할하는 화자 분할 모듈;을 포함하는 전자 장치.

2

제1 항에 있어서, 상기 모션 인식 장치는,상기 화자들에게 초광대역 송신 신호를 방출하고, 상기 화자들에 의해 반사된 초광대역 반사 신호를 수신하는 복수의 안테나들; 및상기 안테나들과 스위치를 통해 연결된 초광대역 송수신기;를 포함하는 전자 장치.

3

제2 항에 있어서, 상기 모션 데이터 분석 모듈은, 상기 복수개의 안테나들의 위치, 상기 초광대역 송신 신호의 방출 시점, 상기 초광대역 반사 신호의 수신 시점, 상기 초광대역 송신 신호 및 상기 초광대역 반사 신호의 크기 및 각도 중 적어도 하나를 이용하여 상기 초광대역 신호 행렬 데이터를 생성하는 전자 장치.

4

제1 항에 있어서, 상기 초광대역 신호 행렬 데이터는 상기 화자들의 위치 정보, 방향 정보, 이동 량 정보 및 이동 속도 정보 중 적어도 하나를 포함하는 전자 장치.

5

제1 항에 있어서, 상기 음성 인식 장치는 상기 음성 신호들을 검출하는 적어도 하나의 마이크로폰을 포함하는 전자 장치.

6

제1 항에 있어서, 상기 멜 스펙트로그램 데이터 및 상기 화자들의 초광대역 신호 행렬 데이터는 2차원 데이터이고, 상기 특성값들은 상기 멜 스펙트로그램 데이터 및 상기 초광대역 신호 행렬 데이터를 직렬 연속된 데이터로 결합(concatenate)한 값인 전자 장치.

7

제1 항에 있어서, 상기 멀티 모달 학습 모듈은 적대적 생성 신경망(Generative Adversarial Network; GAN)을 이용하여 상기 특성값들을 추출하는 전자 장치.

8

제1 항에 있어서, 상기 화자 분할 모듈은, 상기 특성값들과 기 저장된 화자 특성값들을 비교하여 화자를 분할하고,상기 기 저장된 화자 특성값들은 화자들 각각의 음성 특성값 및 모션 특성값을 포함하는 전자 장치.

9

제1 항에 있어서, 상기 화자 분할 모듈은, 상기 특성값들이 기 저장된 화자 특성값들과 일치하는 경우 상기 복수의 화자들 중 어느 한 화자로 분류하고,상기 특성값들이 상기 기 저장된 화자 특성값들과 불일치하는 경우 새로운 화자로 저장하는 전자 장치.

10

복수의 화자들의 인원수를 입력하는 단계;음성 인식 장치에 의해 검출된 복수의 화자들의 음성 신호들로부터 멜 스펙트로그램 데이터들을 생성하고, 모션 인식 장치에 의해 검출된 상기 화자들의 모션 센싱 신호들로부터 초광대역 신호 행렬 데이터들을 생성하는 단계;상기 멜 스펙트로그램 데이터들 및 상기 초광대역 신호 행렬 데이터들에 기초하여 특성값들을 추출하는 단계; 및상기 특성값들과 기 저장된 화자 특성값들을 비교하여, 화자를 분할하는 단계;를 포함하는 화자 분할 방법.

11

제10 항에 있어서, 상기 초광대역 신호 행렬 데이터들은 상기 화자들의 위치 정보, 방향 정보, 이동 량 정보 및 이동 속도 정보 중 적어도 하나를 포함하는 화자 분할 방법.

12

제10 항에 있어서, 상기 멜 스펙트로그램 및 상기 화자들의 초광대역 신호 행렬 데이터는 2차원 데이터이고, 상기 특성값들은 상기 멜 스펙트로그램 데이터 및 상기 초광대역 신호 행렬 데이터를 직렬 연속된 데이터로 결합(concatenate)한 값인 화자 분할 방법.

13

제10 항에 있어서, 상기 특성값들을 추출하는 단계는, 적대적 생성 신경망(Generative Adversarial Network; GAN)을 이용하여 상기 특성값들을 추출하는 화자 분할 방법.

14

제10 항에 있어서, 상기 기 저장된 화자 특성값들은 화자들 각각의 음성 특성값 및 모션 특성값을 포함하는 화자 분할 방법.

15

제10 항에 있어서, 상기 화자를 분할하는 단계는, 상기 특성값들이 상기 기 저장된 화자 특성값들과 일치하는 경우 상기 복수의 화자들 중 어느 한 화자로 분류하고,상기 특성값들이 상기 기 저장된 화자 특성값들과 불일치하는 경우 새로운 화자로 저장하는 화자 분할 방법.

16

복수의 화자들로부터 음성 신호들을 획득하는 마이크로폰;상기 화자들에게 초광대역 송신 신호들을 방출하고, 상기 화자들에 의해 반사된 초광대역 반사 신호들을 수신하는 초광대역 센서; 및상기 음성 신호들 및 상기 초광대역 반사 신호들에 기초하여, 상기 화자들을 분할하는 제어부;를 포함하되,상기 제어부는, 상기 음성 신호들로부터 멜 스펙트로그램 데이터들을 생성하고, 상기 초광대역 반사 신호들로부터 상기 화자들의 초광대역 신호 행렬 데이터들을 생성하고, 상기 멜 스펙트로그램 데이터들 및 상기 초광대역 신호 행렬 데이터들에 기초하여 특성값들을 추출하고, 상기 특성값들과 기 저장된 화자 특성값들을 비교하여 화자를 분할하는 휴대용 단말기.

18

제17 항에 있어서, 상기 제어부는 상기 복수개의 안테나들의 위치, 상기 초광대역 송신 신호의 방출 시점, 상기 초광대역 반사 신호의 수신 시점, 상기 초광대역 송신 신호 및 상기 초광대역 반사 신호의 크기 및 각도 중 적어도 하나를 이용하여 상기 화자들의 초광대역 신호 행렬 데이터를 생성하는 휴대용 단말기.

19

제16 항에 있어서, 상기 초광대역 신호 행렬 데이터들은 상기 화자들의 위치 정보, 방향 정보, 이동 량 정보 및 이동 속도 정보 중 적어도 하나를 포함하는 휴대용 단말기.

20

제16 항에 있어서, 상기 제어부는, 상기 특성값들이 상기 기 저장된 화자 특성값들과 일치하는 경우 상기 복수의 화자들 중 어느 한 화자로 분류하고,상기 특성값들이 상기 기 저장된 화자 특성값들과 불일치하는 경우 새로운 화자로 저장하는 휴대용 단말기.