기계학습 기반의 화자 분리 방법 및 그를 위한 장치
Method and Apparatus for Separating Speaker Based on Machine Learning
특허 요약
기계학습 기반의 화자 분리 방법 및 그를 위한 장치 를 개시한다. 본 발명의 실시예에 따른 화자 분리 방법은, 적어도 하나의 화자의 음성들로 구성된 혼합 음성을 입력 받는 음성 입력 단계; 상기 혼합 음성을 기반으로 특정 화자에 대한 제1 음성(A')을 생성하여 출력하는 음성 생성 단계; 및 상기 제1 음성을 상기 특정 화자의 실제 제2 음성(A)과 구분하고, 상기 혼합 음성과 상기 제1 음성 및 상기 제2 음성을 기반으로 생성된 잔차 음성을 구분하여 화자 분리가 수행되도록 하는 음성 구분 단계를 포함할 수 있다.
청구항
번호청구항
1

하나 이상의 프로세서 및 상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 컴퓨팅 디바이스에 의해 수행되는 화자 분리 방법에 있어서, 상기 컴퓨팅 디바이스는, 적어도 하나의 화자의 음성들로 구성된 혼합 음성을 입력 받는 음성 입력 단계;상기 혼합 음성을 기반으로 특정 화자에 대한 제1 음성(A')을 생성하여 출력하는 음성 생성 단계; 및상기 제1 음성을 상기 특정 화자의 실제 제2 음성(A)과 구분하고, 상기 혼합 음성과 상기 제1 음성 및 상기 제2 음성을 기반으로 생성된 잔차 음성을 구분하여 화자 분리가 수행되도록 하는 음성 구분 단계를 수행하되,상기 음성 구분 단계는, 상기 제1 음성 및 상기 제2 음성이 동일한 음성인지 여부를 구분하는 타겟 음성 구분 단계; 및 상기 혼합 음성과 상기 제1 음성을 기반으로 생성된 제1 잔차 음성과 상기 혼합 음성과 상기 제2 음성을 기반으로 생성된 제2 잔차 음성이 동일한 음성인지 여부를 구분하는 잔차 음성 구분 단계를 포함하는 것을 특징으로 하는 화자 분리 방법.

2

제1항에 있어서,상기 음성 입력 단계는,상기 특정 화자의 제1 음성과 소정의 화자의 음성 또는 노이즈 음성을 포함하는 상기 혼합 음성을 입력 받는 것을 특징으로 하는 화자 분리 방법.

3

제1항에 있어서,상기 음성 생성 단계는,하나의 타겟 소스 음성의 웨이브폼 세그먼트와 여러 화자의 소스 음성들이 합성된 혼합 음성의 웨이브폼 세그먼트가 매핑된 데이터셋을 사용하여 학습하여 상기 제1 음성을 생성하는 것을 특징으로 하는 화자 분리 방법.

4

제1항에 있어서,상기 음성 생성 단계는,상기 혼합 음성에서 상기 특정 화자의 음성을 구분하기 위하여 상기 혼합 음성의 압축을 수행하는 혼합 음성 압축 단계; 및상기 특정 화자의 음성을 기반으로 압축된 혼합 음성을 재구성하여 제1 음성(A')을 생성하는 데이터 재구성 단계를 포함하는 것을 특징으로 하는 화자 분리 방법.

5

삭제

6

제1항에 있어서,상기 타겟 음성 구분 단계는, 상기 제1 음성과 상기 제2 음성을 입력 받고, 상기 제1 음성이 상기 제2 음성과 동일한 음성인지 여부를 구분하여 참 신호 또는 거짓 신호에 대한 플래그(Flag) 값을 출력하는 것을 특징으로 하는 화자 분리 방법.

7

제1항에 있어서,상기 잔차 음성 구분 단계는,상기 혼합 음성과 상기 제1 음성을 기반으로 생성된 제1 잔차 음성과 상기 혼합 음성과 상기 제2 음성을 기반으로 생성된 제2 잔차 음성을 입력 받고, 상기 제1 잔차 음성이 상기 제2 잔차 음성과 동일한 음성인지 여부를 구분하여 참 신호 또는 거짓 신호에 대한 플래그(Flag) 값을 출력하는 화자 분리 방법.

8

제7항에 있어서,상기 잔차 음성 구분 단계는,상기 혼합 음성에서 상기 제1 음성을 제거한 상기 제1 잔차 음성과 상기 혼합 음성에서 상기 제2 음성을 제거한 상기 제2 잔차 음성을 비교하여 구분하는 것을 특징으로 하는 화자 분리 방법.

9

제1항에 있어서,상기 타겟 음성 구분 단계는,상기 음성 생성 단계와 연동하여 상기 제1 음성 및 상기 제2 음성을 구분하기 위하여 생성적 적대 신경망(GAN: Generative Adversarial Network) 학습을 수행하며, 상기 잔차 음성 구분 단계는, 상기 음성 생성 단계과 연동하여 상기 제1 잔차 음성 및 상기 제2 잔차 음성을 구분하기 위하여 생성적 적대 신경망(GAN) 학습을 수행하는 것을 특징으로 하는 화자 분리 방법.

10

혼합 음성에서 화자를 분리하는 장치로서, 하나 이상의 프로세서; 및상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하며, 상기 프로그램들은 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서들에서,적어도 하나의 화자의 음성들로 구성된 혼합 음성을 입력 받는 음성 입력 단계;상기 혼합 음성을 기반으로 특정 화자에 대한 제1 음성(A')을 생성하여 출력하는 음성 생성 단계; 및상기 제1 음성을 상기 특정 화자의 실제 제2 음성(A)과 구분하고, 상기 혼합 음성과 상기 제1 음성 및 상기 제2 음성을 기반으로 생성된 잔차 음성을 구분하여 화자 분리가 수행되도록 하는 음성 구분 단계를 포함하는 동작들을 수행하게 하되,상기 음성 구분 단계는, 상기 제1 음성 및 상기 제2 음성이 동일한 음성인지 여부를 구분하는 타겟 음성 구분 단계; 및 상기 혼합 음성과 상기 제1 음성을 기반으로 생성된 제1 잔차 음성과 상기 혼합 음성과 상기 제2 음성을 기반으로 생성된 제2 잔차 음성이 동일한 음성인지 여부를 구분하는 잔차 음성 구분 단계를 포함하는 것을 특징으로 하는 화자 분리 장치.

11

삭제

12

제10항에 있어서,상기 타겟 음성 구분 단계는, 상기 제1 음성과 상기 제2 음성을 입력 받고, 상기 제1 음성이 상기 제2 음성과 동일한 음성인지 여부를 구분하여 참 신호 또는 거짓 신호에 대한 플래그(Flag) 값을 출력하는 것을 특징으로 하는 화자 분리 장치.

13

제10항에 있어서,상기 잔차 음성 구분 단계는,상기 혼합 음성과 상기 제1 음성을 기반으로 생성된 제1 잔차 음성과 상기 혼합 음성과 상기 제2 음성을 기반으로 생성된 제2 잔차 음성을 입력 받고, 상기 제1 잔차 음성이 상기 제2 잔차 음성과 동일한 음성인지 여부를 구분하여 참 신호 또는 거짓 신호에 대한 플래그(Flag) 값을 출력하는 화자 분리 장치.

14

삭제

15

삭제