| 번호 | 청구항 |
|---|---|
| 1 | 자기지도 학습을 활용한 왜곡에 강인한 합성 음성 탐지를 위한 컴퓨팅 장치에 있어서,메모리; 및상기 메모리와 연결되고, 상기 메모리에 저장된 적어도 하나의 명령을 실행하도록 구성되고, 합성 음성 탐지 모듈을 갖는 프로세서를 포함하고, 상기 합성 음성 탐지 모듈은,자기지도 학습을 통해 사전 훈련되고, 미세 조정을 통해, 입력되는 음성의 원시 파형으로부터 특징들을 추출하도록 구성되는 특징 추출기; 및상기 특징들을 기반으로, 상기 음성을 합성 음성 또는 실제 음성으로 구분하도록 구성되는 분류기를 포함하는,컴퓨팅 장치. |
| 2 | 제 1 항에 있어서, 상기 특징 추출기는 wav2vec 2.0으로 구현되어, 상기 원시 파형으로부터 복수의 프레임 레벨 특징들을 도출하는,컴퓨팅 장치. |
| 3 | 제 2 항에 있어서, 상기 분류기는, 어텐션 메커니즘을 통해, 상기 프레임 레벨 특징들에 어텐션 스코어들을 부여하여, 상기 프레임 레벨 특징들에 대한 가중 평균과 가중 표준 편차를 구하고, 상기 가중 평균과 상기 가중 표준 편차를 결합하여 상기 음성의 표현 벡터를 생성하는 어텐티브 통계량 풀링(attentive statistics pooling) 레이어; 및상기 표현 벡터에 대해 합성 음성과 실제 음성에 각각 대응하는 두 개의 클래스들에 대한 로짓 값을 도출하고, 상기 로짓 값을 기반으로 크로스-엔트로피 손실 함수를 통해 상기 음성을 합성 음성 또는 실제 음성으로 구분하는 완전-연결 레이어(fully-connected layer)를 포함하는,컴퓨팅 장치. |
| 4 | 제 1 항에 있어서, 상기 합성 음성 탐지 모듈은 학습 데이터를 이용하여 사전 훈련되고, 상기 학습 데이터는 원시 파형으로부터 생성되는 왜곡된 파형으로 증강된 것인,컴퓨팅 장치. |
| 5 | 제 4 항에 있어서, 상기 왜곡된 파형은,다중 대역 필터와 해머스타인(Hammerstein) 시스템의 조합으로 원시 파형으로부터 시간에 따라 일정한 통계적 특성을 갖는 컨볼루션 노이즈를 생성하는 알고리즘,원시 파형에 대한 진폭 변화를 통해 비정상적인 임펄스 형태의 노이즈를 생성하는 알고리즘, 또는원시 파형에 정상적인 백색 잡음을 추가하는 알고리즘중 하나 또는 적어도 두 개의 조합으로 생성되는,컴퓨팅 장치. |
| 6 | 자기지도 학습을 활용한 왜곡에 강인한 합성 음성 탐지를 위한 합성 음성 탐지 모듈을 갖는 컴퓨팅 장치의 동작 방법에 있어서, 상기 합성 음성 탐지 모듈의 자기지도 학습을 통해 사전 훈련된 특징 추출기가 미세 조정을 통해, 입력되는 음성의 원시 파형으로부터 특징들을 추출하는 단계; 및상기 합성 음성 탐지 모듈의 분류기가 상기 특징들을 기반으로, 상기 음성을 합성 음성 또는 실제 음성으로 구분하는 단계를 포함하는,컴퓨팅 장치의 동작 방법. |
| 7 | 제 6 항에 있어서, 상기 특징 추출기는 wav2vec 2.0으로 구현되어, 상기 원시 파형으로부터 복수의 프레임 레벨 특징들을 도출하는,컴퓨팅 장치의 동작 방법. |
| 8 | 제 7 항에 있어서,상기 분류기는, 어텐션 메커니즘을 통해, 상기 프레임 레벨 특징들에 어텐션 스코어들을 부여하여, 상기 프레임 레벨 특징들에 대한 가중 평균과 가중 표준 편차를 구하고, 상기 가중 평균과 상기 가중 표준 편차를 결합하여 상기 음성의 표현 벡터를 생성하는 어텐티브 통계량 풀링 레이어; 및상기 표현 벡터에 대해 합성 음성과 실제 음성에 각각 대응하는 두 개의 클래스들에 대한 로짓 값을 도출하고, 상기 로짓 값을 기반으로 크로스-엔트로피 손실 함수를 통해 상기 음성을 합성 음성 또는 실제 음성으로 구분하는 완전-연결 레이어를 포함하는,컴퓨팅 장치의 동작 방법. |
| 9 | 제 6 항에 있어서, 상기 합성 음성 탐지 모듈은 학습 데이터를 이용하여 사전 훈련되고, 상기 학습 데이터는 원시 파형으로부터 생성되는 왜곡된 파형으로 증강된 것이며,상기 왜곡된 파형은,다중 대역 필터와 해머스타인(Hammerstein) 시스템의 조합으로 원시 파형으로부터 시간에 따라 일정한 통계적 특성을 갖는 컨볼루션 노이즈를 생성하는 알고리즘,원시 파형에 대한 진폭 변화를 통해 비정상적인 임펄스 형태의 노이즈를 생성하는 알고리즘, 또는원시 파형에 정상적인 백색 잡음을 추가하는 알고리즘중 하나 또는 적어도 두 개의 조합으로 생성되는,컴퓨팅 장치의 동작 방법. |
| 10 | 자기지도 학습을 활용한 왜곡에 강인한 합성 음성 탐지를 위한 방법을 컴퓨터 장치에서 실행시키기 위해 비-일시적인 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램에 있어서,상기 방법은,상기 합성 음성 탐지 모듈의 자기지도 학습을 통해 사전 훈련된 특징 추출기가 미세 조정을 통해, 입력되는 음성의 원시 파형으로부터 특징들을 추출하는 단계; 및상기 합성 음성 탐지 모듈의 분류기가 상기 특징들을 기반으로, 상기 음성을 합성 음성 또는 실제 음성으로 구분하는 단계를 포함하는,컴퓨터 프로그램. |