심층 희소 사전 지식 기반의 심층 쌍대 교대 방향 승수법 네트워크를 이용한 위상복원 장치 및 방법
DEVICE AND METHOD FOR PHASE RETRIEVAL USING DEEP DUAL ALTERNATING DIRECTION METHOD OF MULTIPLIERS NETWOKR WITH DEEP SPARSE PRIOR KNOWLEDGE
특허 요약
심층 희소 사전 지식 기반의 심층 쌍대 교대 방향 승수법 네트워크를 이용한 위상복원 장치 및 방법이 개시된다. 상기 위상복원 방법은 적어도 프로세서를 포함하는 컴퓨팅 장치에 의해 수행되고, 진폭 스펙트로그램(magnitude spectrogram)들과 각각이 상기 진폭 스펙트로그램들 각각에 대응하는 시간 영역의 음성 신호들을 포함하는 학습 데이터를 획득하는 단계, 및 상기 학습 데이터를 이용하여, L(L은 임의의 자연수) 개의 레이어를 포함하는 심층 신경망(deep neural network) 기반의 학습 모델을 학습하여 입력되는 진폭 스펙트로그램으로부터 시간 영역의 음성 신호를 출력하는 위상복원 모델을 생성하는 단계를 포함하고, 상기 위상복원 모델의 각 레이어는, 쌍대 ADMM(Alternating direction method of multipliers)의 업데이트 룰(update rule)을 일반화한다.
청구항
번호청구항
1

적어도 프로세서를 포함하는 컴퓨팅 장치에 의해 수행되는 오디오 데이터의 위상복원 방법에 있어서,진폭 스펙트로그램(magnitude spectrogram)들과 각각이 상기 진폭 스펙트로그램들 각각에 대응하는 시간 영역의 음성 신호들을 포함하는 학습 데이터를 획득하는 단계; 및상기 학습 데이터를 이용하여, L(L은 임의의 자연수) 개의 레이어를 포함하는 심층 신경망(deep neural network) 기반의 학습 모델을 학습하여 입력되는 진폭 스펙트로그램으로부터 시간 영역의 음성 신호를 출력하는 위상복원 모델을 생성하는 단계를 포함하고,상기 위상복원 모델의 각 레이어는, 쌍대 ADMM(Alternating direction method of multipliers)의 업데이트 룰(update rule)을 일반화하는,위상복원 방법.

2

제1항에 있어서,변수들(q, v, w, p, u, 및 x)을 업데이트하기 위한 상기 업데이트 룰은 수학식 1 내지 수학식 6에 의해 정의되고,상기 수학식 1은 이고,상기 는 시간 영역으로부터 시간-주파수 영역으로의 선형 변환(linear transformation)을 나타내는 행렬이고, 상기 F는 프레임 길이(frame length)이고, 상기 D는 시간 영역 신호의 길이이고, 상기 J는 프레임의 개수이고, 상기 H는 호핑 사이즈(hopping size)이고, 상기 는 시간 영역의 음성 신호이고, 상기 B는 희소 표현 행렬(sparse representation matrix)이고, 상기 는 페널티 파라미터(penalty parameter)이고, 상기 는 상수이고,상기 수학식 2는 이고,상기 는 복소수로 확장된 소프트 임계치 연산자(soft-threshold operator)이고,상기 수학식 3은 이고,상기 수학식 4는 이고,상기 는 상수이고,상기 수학식 5는 이고,상기 은 진폭 스펙트로그램이고, 상기 ∠p는 p의 위상 벡터(phase vector)이고,상기 수학식 6은 이고,상기 는 모델 기반 파라미터인,위상복원 방법.

3

제1항에 있어서,상기 학습 모델은 수학식에 의해 정의되는 손실 함수(loss function)를 최소화하는 방향으로 학습되고,상기 손실 함수는 이고,상기 x(L)은 변수 x에 대한 L번째 레이어의 출력이고, 상기 는 상기 학습 데이터에 포함되는 시간 영역의 음성 신호이고, 상기 c는 트레이드오프 하이퍼파라미터(tradeoff hyperparameter)이고, 상기 는 시간 영역으로부터 시간-주파수 영역으로의 선형 변환을 나타내는 행렬인,위상복원 방법.

4

제3항에 있어서,상기 위상복원 모델의 각 레이어는 서브 신경망들을 포함하고,상기 서브 신경망들은,변수 u, 변수 v, 변수 x, 및 변수 w를 입력받아 내부 변수 q를 계산하는 제1 계산 블록(Q-블록);상기 제1 계산 블록(Q-블록)의 출력 및 변수 v를 입력받아 변수 v의 업데이트를 제어하기 위한 가중치 벡터()를 생성하는 제1 서브 신경망(-net);상기 제1 계산 블록(Q-블록)의 출력, 변수 v, 및 상기 제1 서브 신경망(-net)의 출력을 입력받아 업데이트된 변수 v를 출력하는 제2 계산 블록(V-블록);상기 제2 계산 블록(V-블록)의 출력을 입력받아 업데이트된 변수 w를 출력하는 제3 계산 블록(W-블록);변수 u, 상기 제3 계산 블록(W-블록)의 출력, 및 변수 x를 입력받아 내부 변수 p를 계산하는 제4 계산 블록(P-블록);상기 제4 계산 블록(P-블록)의 출력, 변수 u, 및 입력되는 진폭 스펙트로그램 r을 입력받아 변수 u의 업데이트를 제어하기 위한 가중치 벡터()를 생성하는 제2 서브 신경망(-net);상기 제2 서브 신경망(-net)의 출력, 상기 제4 계산 블록(P-블록)의 출력, 변수 u, 및 입력되는 진폭 스펙트로그램 r을 입력받아 업데이트된 변수 u를 출력하는 제5 계산 블록(U-블록); 및변수 x, 변수 u, 변수 w, 상기 제3 계산 블록(W-블록)의 출력, 상기 제5 계산 블록(U-블록)의 출력을 입력받아 업데이트된 변수 x를 출력하는 제6 계산 블록을 포함하는,위상복원 방법.

5

제4항에 있어서,-번째 레이어에서의 상기 가중치 벡터()는 에 의해 정의되고,상기 CNN은 합성곱 신경망(Convolutional Neural Network)이고, 상기 는 시그모이드 활성화(sigmoid activation) 함수이고, 상기 는 -번째 레이어에서 -net의 학습 가능한 파라미터를 나타내고,-번째 레이어에서의 상기 가중치 벡터()는 에 의해 정의되고, 상기 는 -번째 레이어에서 -net의 학습 가능한 파라미터를 나타내고,-번째 레이어에서 상기 Q-블록은 를 계산하고, 상기 및 는 각각 모델-기반 파라미터이고, 상기 는 시간 영역으로부터 시간-주파수 영역으로의 선형 변환을 나타내는 행렬이고, 상기 H는 호핑 사이즈이고,-번째 레이어에서 상기 V-블록은 를 계산하고,상기 는 복소수로 확장된 소프트 임계치 연산자를 나타내고,-번째 레이어에서 상기 W-블록은 를 계산하고,상기 과 상기 는 에 의해 정의되고, 상기 은 로 나타내는 서브 신경망의 학습 가능한 파라미터이고, 상기 는 로 나타내는 서브 신경망의 학습 가능한 파라미터이고,-번째 레이어에서 상기 P-블록은 를 계산하고, 상기 Pl은 내부 변수 p를 연산하는 서브 신경망이고,-번째 레이어에서 U-블록은 를 계산하고, 상기 ∠p는 변수 p의 위상 벡터이고,-번째 레이어에서 X-블록은 를 계산하고, 및 는 모델 기반 파라미터인,위상복원 방법.

6

제5항에 있어서,타겟 진폭 스펙트로그램을 수신하는 단계; 및상기 타겟 진폭 스펙트로그램을 상기 위상복원 모델에 입력하여, 복원된 음성 신호를 획득하는 단계를 더 포함하는,위상복원 방법.