신경망모델의 학습방법 및 장치
METHOD AND DEVICE FOR LEARNING OF NEURAL NETWORK MODEL
특허 요약
신경망모델의 학습방법 및 장치가 제공된다. 본 발명의 신경망모델의 학습방법은, 신경망모델에 대한 적대적 학습 및 거리 기반 학습이 각각 수행되도록 함으로써, 저자원 환경에서 신경망모델의 과적합 및 과소적합 문제가 발생되는 것을 방지하여 모델의 학습 성능 및 효율을 높일 수 있다.
청구항
번호청구항
3

제1항에 있어서, 상기 신경망모델을 적대적 학습시키는 단계는, 상기 신경망모델로부터 상기 복수의 제1데이터 각각에 대한 도메인 예측 결과를 획득하는 단계;상기 복수의 제1데이터 각각에 할당된 상기 도메인 정보에 기초하여 상기 도메인 예측 결과로부터 상기 복수의 제1데이터 각각의 예측 손실값을 결정하는 단계; 및상기 예측 손실값이 최대가 되도록 상기 신경망모델의 파라미터 값을 조정하는 단계를 포함하는 신경망모델의 학습방법.

1

신경망모델의 학습장치에 의한 신경망모델의 학습방법으로, 복수의 학습데이터로부터 서포트 세트 및 쿼리 세트를 획득하는 단계;상기 서포트 세트의 복수의 제1데이터를 상기 신경망모델에 입력하여 임베딩 공간에서 상기 복수의 제1데이터 각각에 대한 도메인 정보를 예측하지 못하도록 상기 신경망모델을 적대적 학습시키는 단계; 및적대적 학습된 신경망모델을 통해 상기 복수의 제1데이터에 대응되는 복수의 대표값을 획득하고, 상기 쿼리 세트의 복수의 제2데이터를 상기 적대적 학습된 신경망모델에 입력하여 상기 임베딩 공간에서 상기 복수의 제2데이터 각각과 상기 복수의 대표값 간 유사도에 따른 분류 결과를 출력하도록 상기 신경망모델을 거리 기반 학습시키는 단계를 포함하는 신경망모델의 학습방법.

2

제1항에 있어서, 상기 신경망모델을 적대적 학습시키는 단계 이전에, 상기 복수의 제1데이터 각각의 도메인 분포를 예측하여 상기 복수의 제1데이터 각각에 상기 도메인 정보를 할당하는 단계를 포함하는 신경망모델의 학습방법.

4

제3항에 있어서, 상기 예측 손실값을 결정하는 단계는, 수학식 (여기서, Ns는 서포트 세트의 데이터 수, Nd는 예측된 도메인 분포의 도메인 수, 는 서포트 세트의 s번째 데이터에 할당된 도메인 정보 및 는 서포트 세트의 s번째 데이터에 대한 도메인 예측값임)에 기초하여 결정하는 단계를 포함하는 신경망모델의 학습방법.

5

제1항에 있어서, 상기 신경망모델을 거리 기반 학습시키는 단계는, 상기 적대적 학습된 신경망모델로부터 상기 복수의 대표값 중 상기 복수의 제2데이터 각각과 최대 유사도를 갖는 하나의 대표값을 분류 결과로 획득하는 단계;상기 복수의 제2데이터 각각에 대한 분류 정답에 기초하여 상기 분류 결과로부터 상기 복수의 제2데이터 각각의 분류 손실값을 결정하는 단계; 및상기 분류 손실값이 최소가 되도록 상기 적대적 학습된 신경망모델의 파라미터 값을 조정하는 단계를 포함하는 신경망모델의 학습방법.

6

제5항에 있어서, 상기 분류 손실값을 결정하는 단계는, 수학식 (여기서, Nq는 쿼리 세트의 데이터 수, Nc는 레이블의 총 개수, xq는 레이블을 예측하고자 하는 쿼리 세트 내 데이터, Cn은 레이블 n의 대표값임)에 기초하여 결정하는 단계를 포함하는 신경망모델의 학습방법.

7

제1항에 있어서, 상기 복수의 대표값 각각은, 상기 임베딩 공간에서 상기 복수의 제1데이터 중 동일 특징을 갖는 둘 이상의 데이터에 대한 평균값에 기초하여 획득되는 신경망모델의 학습방법.

8

모델 학습 프로그램이 저장된 메모리; 및상기 모델 학습 프로그램을 실행하여, 복수의 학습데이터로부터 서포트 세트 및 쿼리 세트를 획득하고, 상기 서포트 세트의 복수의 제1데이터를 상기 신경망모델에 입력하여 임베딩 공간에서 상기 복수의 제1데이터 각각에 대한 도메인 정보를 예측하지 않도록 상기 신경망모델을 적대적 학습시키고, 적대적 학습된 신경망모델을 통해 상기 복수의 제1데이터에 대응되는 복수의 대표값을 획득하고, 상기 쿼리 세트의 복수의 제2데이터를 상기 적대적 학습된 신경망모델에 입력하여 상기 임베딩 공간에서 상기 복수의 제2데이터 각각과 상기 복수의 대표값 간 유사도에 따른 분류 결과를 출력하도록 상기 신경망모델을 거리 기반 학습시키는 프로세서를 포함하는 신경망모델의 학습장치.

9

제8항에 있어서, 상기 프로세서는, 상기 복수의 제1데이터 각각의 도메인 분포를 예측하여 상기 복수의 제1데이터 각각에 상기 도메인 정보를 할당하고, 도메인 정보가 할당된 복수의 제1데이터를 상기 신경망모델에 입력하여 상기 신경망모델을 적대적 학습시키는 신경망모델의 학습장치.

10

제8항에 있어서, 상기 프로세서는, 상기 신경망모델로부터 상기 복수의 제1데이터 각각에 대한 도메인 예측 결과를 획득하고, 상기 복수의 제1데이터 각각에 할당된 상기 도메인 정보에 기초하여 상기 도메인 예측 결과로부터 상기 복수의 제1데이터 각각의 예측 손실값을 결정하고, 상기 예측 손실값이 최대가 되도록 상기 신경망모델의 파라미터 값을 조정하는 신경망모델의 학습장치.

11

제10항에 있어서, 상기 프로세서는, 수학식 (여기서, Ns는 서포트 세트의 데이터 수, Nd는 예측된 도메인 분포의 도메인 수, 는 서포트 세트의 s번째 데이터에 할당된 도메인 정보 및 는 서포트 세트의 s번째 데이터에 대한 도메인 예측값임)에 기초하여 상기 예측 손실값을 결정하는 신경망모델의 학습장치.

12

제8항에 있어서, 상기 프로세서는, 상기 적대적 학습된 신경망모델로부터 상기 복수의 대표값 중 상기 복수의 제2데이터 각각과 최대 유사도를 갖는 하나의 대표값을 분류 결과로 획득하고, 상기 복수의 제2데이터 각각에 대한 분류 정답에 기초하여 상기 분류 결과로부터 상기 복수의 제2데이터 각각의 분류 손실값을 결정하고, 상기 분류 손실값이 최소가 되도록 상기 적대적 학습된 신경망모델의 파라미터 값을 조정하는 신경망모델의 학습장치.

13

제12항에 있어서, 상기 프로세서는, 수학식 (여기서, Nq는 쿼리 세트의 데이터 수, Nc는 레이블의 총 개수, xq는 레이블을 예측하고자 하는 쿼리 세트 내 데이터, Cn은 레이블 n의 대표값임)에 기초하여 상기 분류 손실값을 결정하는 신경망모델의 학습장치.

14

제8항에 있어서, 상기 복수의 대표값 각각은, 상기 임베딩 공간에서 상기 복수의 제1데이터 중 동일 특징을 갖는 둘 이상의 데이터에 대한 평균값에 기초하여 획득되는 신경망모델의 학습장치.

15

컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 기록매체로서,상기 컴퓨터 프로그램은, 복수의 학습데이터로부터 서포트 세트 및 쿼리 세트를 획득하는 단계;상기 서포트 세트의 복수의 제1데이터를 상기 신경망모델에 입력하여 임베딩 공간에서 상기 복수의 제1데이터 각각에 대한 도메인 정보를 예측하지 않도록 상기 신경망모델을 적대적 학습시키는 단계; 및적대적 학습된 신경망모델을 통해 상기 복수의 제1데이터에 대응되는 복수의 대표값을 획득하고, 상기 쿼리 세트의 복수의 제2데이터를 상기 적대적 학습된 신경망모델에 입력하여 상기 임베딩 공간에서 상기 복수의 제2데이터 각각과 상기 복수의 대표값 간 유사도에 따른 분류 결과를 출력하도록 상기 신경망모델을 거리 기반 학습시키는 단계를 포함하는 신경망모델의 학습장치에 의한 신경망모델의 학습방법을 프로세서가 수행하기 위한 명령어를 포함하는 컴퓨터 판독 가능한 기록매체.

16

컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램으로서,상기 컴퓨터 프로그램은, 복수의 학습데이터로부터 서포트 세트 및 쿼리 세트를 획득하는 단계;상기 서포트 세트의 복수의 제1데이터를 상기 신경망모델에 입력하여 임베딩 공간에서 상기 복수의 제1데이터 각각에 대한 도메인 정보를 예측하지 않도록 상기 신경망모델을 적대적 학습시키는 단계; 및적대적 학습된 신경망모델을 통해 상기 복수의 제1데이터에 대응되는 복수의 대표값을 획득하고, 상기 쿼리 세트의 복수의 제2데이터를 상기 적대적 학습된 신경망모델에 입력하여 상기 임베딩 공간에서 상기 복수의 제2데이터 각각과 상기 복수의 대표값 간 유사도에 따른 분류 결과를 출력하도록 상기 신경망모델을 거리 기반 학습시키는 단계를 포함하는 신경망모델의 학습장치에 의한 신경망모델의 학습방법을 프로세서가 수행하기 위한 명령어를 포함하는 기록매체에 저장된 컴퓨터 프로그램.