| 번호 | 청구항 |
|---|---|
| 10 | 제9항에 있어서, 상기 프로세서는, 상기 제2신경망모델이 기 설정된 압축 파라미터에 기초하여 상기 시퀀스 데이터로부터 행렬의 1차원 크기가 압축된 상기 압축 어텐션 행렬을 생성하도록 학습시키는 지식 증류를 이용한 신경망모델의 학습장치. |
| 9 | 제8항에 있어서, 상기 프로세서는, 상기 제2신경망모델이 상기 시퀀스 데이터로부터 압축 어텐션 행렬을 생성하고, 상기 압축 어텐션 행렬의 복수의 요소 값 각각에 기초하여 상기 압축 어텐션 행렬에 대한 어텐션 마스크를 획득하고, 상기 어텐션 마스크를 보간하여 희소 어텐션 행렬을 생성하고, 상기 희소 어텐션 행렬과 상기 시퀀스 데이터를 어텐션 연산하도록 학습시키는 지식 증류를 이용한 신경망모델의 학습장치. |
| 1 | 사전 학습된 제1신경망모델이 하나 이상의 토큰을 포함하는 시퀀스 데이터를 입력 받아 어텐션 연산에 대한 하나 이상의 어텐션 파라미터를 제2신경망모델로 지식 증류(knowledge distillation)하는 단계; 및상기 제2신경망모델이 상기 시퀀스 데이터를 입력 받아 상기 하나 이상의 어텐션 파라미터에 기초하여 상기 시퀀스 데이터에 대한 어텐션 연산 결과를 출력하도록 학습하는 단계를 포함하는 지식 증류를 이용한 신경망모델의 학습방법. |
| 2 | 제1항에 있어서, 상기 학습하는 단계는, 상기 시퀀스 데이터로부터 압축 어텐션 행렬을 생성하는 단계;상기 압축 어텐션 행렬의 복수의 요소 값 각각에 기초하여 상기 압축 어텐션 행렬에 대한 어텐션 마스크를 획득하는 단계; 상기 어텐션 마스크를 보간하여 희소 어텐션 행렬을 생성하는 단계; 및상기 희소 어텐션 행렬과 상기 시퀀스 데이터를 어텐션 연산하는 단계를 포함하는 지식 증류를 이용한 신경망모델의 학습방법. |
| 3 | 제2항에 있어서, 상기 압축 어텐션 행렬을 생성하는 단계는, 기 설정된 압축 파라미터에 기초하여 상기 시퀀스 데이터로부터 행렬의 1차원 크기가 압축된 상기 압축 어텐션 행렬을 생성하는 단계를 포함하는 지식 증류를 이용한 신경망모델의 학습방법. |
| 4 | 제3항에 있어서, 상기 압축 파라미터는 상기 시퀀스 데이터의 길이보다 작은 값으로 설정되는 지식 증류를 이용한 신경망모델의 학습방법. |
| 5 | 제2항에 있어서, 상기 어텐션 마스크를 획득하는 단계는, 상기 압축된 어텐션 행렬의 상기 복수의 요소 값 중 기 설정된 기준값 이상인 요소 값을 추출하는 단계; 추출된 요소 값을 1로 맵핑하고, 상기 추출된 요소 값을 제외한 나머지 요소 값을 0으로 맵핑하는 단계; 및맵핑된 복수의 요소값을 포함하는 상기 어텐션 마스크를 획득하는 단계를 포함하는 지식 증류를 이용한 신경망모델의 학습방법. |
| 6 | 제2항에 있어서, 상기 희소 어텐션 행렬을 생성하는 단계는, 상기 어텐션 마스크를 상기 시퀀스 데이터와 동일 길이로 보간하여 희소 마스크를 생성하는 단계; 및상기 시퀀스 데이터와 상기 희소 마스크를 행렬 곱하여 상기 희소 어텐션 행렬을 생성하는 단계를 포함하는 지식 증류를 이용한 신경망모델의 학습방법. |
| 7 | 제2항에 있어서, 상기 하나 이상의 어텐션 파라미터는, 상기 제1신경망모델이 생성한 어텐션 행렬 및 상기 시퀀스 데이터에 대한 어텐션 연산 결과를 포함하고, 상기 학습하는 단계는, 상기 제2신경망모델이 생성한 상기 압축 어텐션 행렬을 보간하고, 보간된 어텐션 행렬과 상기 제1신경망모델의 어텐션 행렬을 비교한 결과에 따라 제1손실값을 결정하는 단계;상기 제2신경망모델의 어텐션 연산 결과와 상기 제1신경망모델의 어텐션 연산 결과를 비교한 결과에 따라 제2손실값을 결정하는 단계; 및 상기 제1손실값과 상기 제2손실값의 합에 따른 총 손실값이 최소가 되도록 상기 제2신경망모델의 하나 이상의 파라미터를 조정하는 단계를 포함하는 지식 증류를 이용한 신경망모델의 학습방법. |
| 8 | 모델 학습 프로그램이 저장된 메모리; 및사전 학습된 제1신경망모델이 하나 이상의 토큰을 포함하는 시퀀스 데이터를 입력 받아 어텐션 연산에 대한 하나 이상의 어텐션 파라미터를 제2신경망모델로 지식 증류(knowledge distillation)하고, 상기 제2신경망모델이 상기 시퀀스 데이터를 입력 받아 상기 하나 이상의 어텐션 파라미터에 기초하여 상기 시퀀스 데이터에 대한 어텐션 연산 결과를 출력하도록 학습시키는 프로세서를 포함하는 지식 증류를 이용한 신경망모델의 학습장치. |
| 11 | 제10항에 있어서, 상기 압축 파라미터는 상기 시퀀스 데이터의 길이보다 작은 값으로 설정된 지식 증류를 이용한 신경망모델의 학습장치. |
| 12 | 제9항에 있어서, 상기 프로세서는, 상기 제2신경망모델이, 상기 압축된 어텐션 행렬의 상기 복수의 요소 값 중 기 설정된 기준값 이상인 요소 값을 추출하고, 추출된 요소 값을 1로 맵핑하고, 상기 추출된 요소 값을 제외한 나머지 요소 값을 0으로 맵핑하고, 맵핑된 복수의 요소값을 포함하는 상기 어텐션 마스크를 획득하도록 학습시키는 지식 증류를 이용한 신경망모델의 학습장치. |
| 13 | 제9항에 있어서, 상기 프로세서는, 상기 제2신경망모델이, 상기 어텐션 마스크를 상기 시퀀스 데이터와 동일 길이로 보간하여 희소 마스크를 생성하고, 상기 시퀀스 데이터와 상기 희소 마스크를 행렬 곱하여 상기 희소 어텐션 행렬을 생성하도록 학습시키는 지식 증류를 이용한 신경망모델의 학습장치. |
| 14 | 제9항에 있어서, 상기 하나 이상의 어텐션 파라미터는, 상기 제1신경망모델이 생성한 어텐션 행렬 및 상기 시퀀스 데이터에 대한 어텐션 연산 결과를 포함하고, 상기 프로세서는, 상기 제2신경망모델이 생성한 상기 압축 어텐션 행렬을 보간하고, 보간된 어텐션 행렬과 상기 제1신경망모델의 어텐션 행렬을 비교한 결과에 따라 제1손실값을 결정하고, 상기 제2신경망모델의 어텐션 연산 결과와 상기 제1신경망모델의 어텐션 연산 결과를 비교한 결과에 따라 제2손실값을 결정하고, 상기 제1손실값과 상기 제2손실값의 합에 따른 총 손실값이 최소가 되도록 상기 제2신경망모델의 하나 이상의 파라미터를 조정하는 지식 증류를 이용한 신경망모델의 학습장치. |
| 15 | 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 기록매체로서,상기 컴퓨터 프로그램은, 사전 학습된 제1신경망모델이 하나 이상의 토큰을 포함하는 시퀀스 데이터를 입력 받아 어텐션 연산에 대한 하나 이상의 어텐션 파라미터를 제2신경망모델로 지식 증류(knowledge distillation)하는 단계; 및상기 제2신경망모델이 상기 시퀀스 데이터를 입력 받아 상기 하나 이상의 어텐션 파라미터에 기초하여 상기 시퀀스 데이터에 대한 어텐션 연산 결과를 출력하도록 학습하는 단계를 포함하는 지식 증류를 이용한 신경망모델의 학습방법을 프로세서가 수행하기 위한 명령어를 포함하는 컴퓨터 판독 가능한 기록매체. |