| 번호 | 청구항 |
|---|---|
| 1 | 음성 신호를 수신하는 단계;상기 음성 신호에 이산 웨이블릿 변환(Discrete Wavelet Transform; DWT)을 수행하여 상기 음성 신호를 상기 음성 신호의 저주파 성분 및 상기 음성 신호의 고주파 성분으로 분리하는 단계;상기 음성 신호의 상기 저주파 성분에 노이즈 신호의 저주파 성분을 더하여 변환 음성 신호의 저주파 성분을 생성하고, 상기 음성 신호의 상기 고주파 성분에 상기 노이즈 신호의 고주파 성분을 더하여 상기 변환 음성 신호의 고주파 성분을 생성하는 단계;상기 변환 음성 신호의 상기 저주파 성분 및 상기 변환 음성 신호의 상기 고주파 성분을 기초로 히든 신호(hidden signal)를 생성하는 단계;상기 히든 신호에 상기 이산 웨이블릿 변환, 확장 합성곱(dilated convolution), 및 역이산 웨이블릿 변환(Inverse Discrete Wavelet Transform; IDWT)을 수행하여 변환 히든 신호를 생성하는 단계; 및상기 변환 히든 신호를 기초로 추정 노이즈 신호의 저주파 성분 및 추정 노이즈 신호의 고주파 성분을 생성하는 단계를 포함하는 것을 특징으로 하는 뉴럴 보코더 학습 방법. |
| 2 | 제1 항에 있어서, 상기 노이즈 신호의 상기 저주파 성분 및 상기 노이즈 신호의 상기 고주파 성분은 상기 음성 신호의 멜-스펙트로그램(mel-spectrogram)을 기초로 생성되는 것을 특징으로 하는 뉴럴 보코더 학습 방법. |
| 3 | 제2 항에 있어서,상기 음성 신호의 상기 멜-스펙트로그램을 기초로 상기 변환 음성 신호의 상기 저주파 성분의 사전 분포(prior distribution) 및 상기 변환 음성 신호의 상기 고주파 성분의 사전 분포가 생성되고,상기 변환 음성 신호의 상기 저주파 성분의 상기 사전 분포 및 상기 변환 음성 신호의 상기 고주파 성분의 상기 사전 분포를 기초로 상기 노이즈 신호의 상기 저주파 성분 및 상기 노이즈 신호의 상기 고주파 성분이 생성되는 것을 특징으로 하는 뉴럴 보코더 학습 방법. |
| 4 | 제1 항에 있어서, 상기 변환 음성 신호의 상기 저주파 성분 및 상기 변환 음성 신호의 상기 고주파 성분 각각은 수학식 1을 기초로 생성되는 것을 특징으로 하는 뉴럴 보코더 학습 방법.[수학식 1]여기서, 는 제t 변환 음성 신호(t는 0 이상의 정수)를 나타내고, 는 노이즈 계수를 나타내며, 는 상기 음성 신호(즉, 제0 변환 음성 신호)를 나타내고, 는 상기 노이즈 신호를 나타낸다. |
| 5 | 제4 항에 있어서, 상기 노이즈 계수는 수학식 2를 기초로 생성되는 것을 특징으로 하는 뉴럴 보코더 학습 방법.[수학식 2]여기서, 와 는 상기 노이즈 계수를 나타내고, 는 제0 노이즈 계수를 나타내며, 는 제T 노이즈 계수를 나타내고, 는 상수를 나타낸다. |
| 6 | 제1 항에 있어서, 상기 변환 히든 신호를 생성하는 단계는,상기 히든 신호에 상기 이산 웨이블릿 변환을 수행하여 상기 히든 신호를 상기 히든 신호의 저주파 성분 및 상기 히든 신호의 고주파 성분으로 분리하는 단계;상기 히든 신호의 상기 저주파 성분 및 상기 히든 신호의 상기 고주파 성분에 상기 확장 합성곱을 수행하여 상기 변환 히든 신호의 저주파 성분 및 상기 변환 히든 신호의 고주파 성분을 생성하는 단계; 및상기 변환 히든 신호의 상기 저주파 성분 및 상기 변환 히든 신호의 상기 고주파 성분에 상기 역이산 웨이블릿 변환을 수행하여 상기 변환 히든 신호를 생성하는 단계를 포함하는 것을 특징으로 하는 뉴럴 보코더 학습 방법. |
| 7 | 제1 항에 있어서, 상기 추정 노이즈 신호에 대한 평가에 사용되는 손실 함수는, 상기 노이즈 신호와 상기 추정 노이즈 신호의 차이를 기초로 생성되는 차이 손실 함수, 및 상기 노이즈 신호와 상기 추정 노이즈 신호에 대한 단시간 푸리에 변환(Shot-Time Fourier Transform; STFT)을 기초로 생성되는 크기 손실 함수를 기초로 생성되는 것을 특징으로 하는 뉴럴 보코더 학습 방법. |
| 8 | 제7 항에 있어서, 상기 손실 함수는, 상기 추정 노이즈 신호의 상기 저주파 성분 및 상기 추정 노이즈 신호의 상기 고주파 성분 각각에 대해 생성되는 것을 특징으로 하는 뉴럴 보코더 학습 방법. |
| 9 | 제8 항에 있어서, 상기 손실 함수는 상기 차이 손실 함수과 상기 크기 손실 함수 사이의 손실 가중치가 적용되어 수학식 3을 기초로 생성되는 것을 특징으로 하는 뉴럴 보코더 학습 방법.[수학식 3]여기서, 는 상기 손실 함수를 나타내고, 은 상기 저주파 성분을 나타내며, 는 상기 고주파 성분을 나타내고, 는 상기 노이즈 신호 와 상기 의 상기 차이를 기초로 생성되는 상기 차이 손실 함수를 나타내며, 는 상기 노이즈 가중치를 나타내고, 는 상기 노이즈 신호 와 상기 추정 노이즈 신호 에 대한 상기 단시간 푸리에 변환을 기초로 생성되는 상기 크기 손실 함수를 나타낸다. |
| 10 | 제1 항에 있어서, 상기 변환 음성 신호의 상기 저주파 성분에 상기 추정 노이즈 신호의 상기 저주파 성분을 빼서 추정 음성 신호의 저주파 성분을 생성하고, 상기 변환 음성 신호의 상기 고주파 성분에 상기 추정 노이즈 신호의 상기 고주파 성분을 빼서 상기 추정 음성 신호의 고주파 성분을 생성하는 단계를 더 포함하는 것을 특징으로 하는 뉴럴 보코더 학습 방법. |
| 11 | 제10 항에 있어서, 상기 추정 음성 신호의 상기 저주파 성분 및 상기 추정 음성 신호의 상기 고주파 성분에 역이산 웨이블릿 변환을 수행하여 상기 추정 음성 신호를 생성하는 단계를 더 포함하는 것을 특징으로 하는 뉴럴 보코더 학습 방법. |
| 12 | 음성 신호를 수신하는 음성 신호 수신부; 및상기 음성 신호에 이산 웨이블릿 변환(Discrete Wavelet Transform; DWT)을 수행하여 상기 음성 신호를 상기 음성 신호의 저주파 성분 및 상기 음성 신호의 고주파 성분으로 분리하고, 상기 음성 신호의 상기 저주파 성분에 노이즈 신호의 저주파 성분을 더하여 변환 음성 신호의 저주파 성분을 생성하고, 상기 음성 신호의 상기 고주파 성분에 상기 노이즈 신호의 고주파 성분을 더하여 상기 변환 음성 신호의 고주파 성분을 생성하며, 상기 변환 음성 신호의 상기 저주파 성분 및 상기 변환 음성 신호의 상기 고주파 성분을 기초로 히든 신호(hidden signal)를 생성하고, 상기 히든 신호에 상기 이산 웨이블릿 변환, 확장 합성곱(dilated convolution), 및 역이산 웨이블릿 변환(Inverse Discrete Wavelet Transform; IDWT)을 수행하여 변환 히든 신호를 생성하며, 상기 변환 히든 신호를 기초로 추정 노이즈 신호의 저주파 성분 및 추정 노이즈 신호의 고주파 성분을 생성하는 음성 신호 학습부를 포함하는 것을 특징으로 하는 뉴럴 보코더 학습 시스템. |
| 13 | 제12 항에 있어서, 상기 노이즈 신호의 상기 저주파 성분 및 상기 노이즈 신호의 상기 고주파 성분은 상기 음성 신호의 멜-스펙트로그램(mel-spectrogram)을 기초로 생성되는 것을 특징으로 하는 뉴럴 보코더 학습 시스템. |
| 14 | 제13 항에 있어서,상기 음성 신호의 상기 멜-스펙트로그램을 기초로 상기 변환 음성 신호의 상기 저주파 성분의 사전 분포(prior distribution) 및 상기 변환 음성 신호의 상기 고주파 성분의 사전 분포가 생성되고,상기 변환 음성 신호의 상기 저주파 성분의 상기 사전 분포 및 상기 변환 음성 신호의 상기 고주파 성분의 상기 사전 분포를 기초로 상기 노이즈 신호의 상기 저주파 성분 및 상기 노이즈 신호의 상기 고주파 성분이 생성되는 것을 특징으로 하는 뉴럴 보코더 학습 시스템. |
| 15 | 제12 항에 있어서, 상기 변환 음성 신호의 상기 저주파 성분 및 상기 변환 음성 신호의 상기 고주파 성분 각각은 수학식 1을 기초로 생성되는 것을 특징으로 하는 뉴럴 보코더 학습 시스템.[수학식 1]여기서, 는 제t 변환 음성 신호(t는 0 이상의 정수)를 나타내고, 는 노이즈 계수를 나타내며, 는 상기 음성 신호(즉, 제0 변환 음성 신호)를 나타내고, 는 상기 노이즈 신호를 나타낸다. |
| 16 | 제15 항에 있어서, 상기 노이즈 계수는 수학식 2를 기초로 생성되는 것을 특징으로 하는 뉴럴 보코더 학습 시스템.[수학식 2]여기서, 와 는 상기 노이즈 계수를 나타내고, 는 제0 노이즈 계수를 나타내며, 는 제T 노이즈 계수를 나타내고, 는 상수를 나타낸다. |
| 17 | 제12 항에 있어서, 상기 음성 신호 학습부는,상기 히든 신호에 상기 이산 웨이블릿 변환을 수행하여 상기 히든 신호를 상기 히든 신호의 저주파 성분 및 상기 히든 신호의 고주파 성분으로 분리하고,상기 히든 신호의 상기 저주파 성분 및 상기 히든 신호의 상기 고주파 성분에 상기 확장 합성곱을 수행하여 상기 변환 히든 신호의 저주파 성분 및 상기 변환 히든 신호의 고주파 성분을 생성하며,상기 변환 히든 신호의 상기 저주파 성분 및 상기 변환 히든 신호의 상기 고주파 성분에 상기 역이산 웨이블릿 변환을 수행하여 상기 변환 히든 신호를 생성하는 것을 특징으로 하는 뉴럴 보코더 학습 시스템. |
| 18 | 제12 항에 있어서, 상기 추정 노이즈 신호에 대한 평가에 사용되는 손실 함수는, 상기 노이즈 신호와 상기 추정 노이즈 신호의 차이를 기초로 생성되는 차이 손실 함수, 및 상기 노이즈 신호와 상기 추정 노이즈 신호에 대한 단시간 푸리에 변환(Shot-Time Fourier Transform; STFT)을 기초로 생성되는 크기 손실 함수를 기초로 생성되는 것을 특징으로 하는 뉴럴 보코더 학습 시스템. |
| 19 | 제18 항에 있어서, 상기 손실 함수는, 상기 추정 노이즈 신호의 상기 저주파 성분 및 상기 추정 노이즈 신호의 상기 고주파 성분 각각에 대해 생성되는 것을 특징으로 하는 뉴럴 보코더 학습 시스템. |
| 20 | 제19 항에 있어서, 상기 손실 함수는 상기 차이 손실 함수과 상기 크기 손실 함수 사이의 손실 가중치가 적용되어 수학식 3을 기초로 생성되는 특징으로 하는 뉴럴 보코더 학습 시스템.[수학식 3]여기서, 는 상기 손실 함수를 나타내고, 은 상기 저주파 성분을 나타내며, 는 상기 고주파 성분을 나타내고, 는 상기 노이즈 신호 와 상기 의 상기 차이를 기초로 생성되는 상기 차이 손실 함수를 나타내며, 는 상기 노이즈 가중치를 나타내고, 는 상기 노이즈 신호 와 상기 추정 노이즈 신호 에 대한 상기 단시간 푸리에 변환을 기초로 생성되는 상기 크기 손실 함수를 나타낸다. |