다중 입력 구조를 이용하는 신경망 모델의 증강 방법, 컴퓨터 프로그램 및 컴퓨팅 장치
METHOD, COMPUTER PROGRAM AND COMPUTING DEVICE FOR AUGMENTATION USING MULTI-INPUT NETWORK
특허 요약
본 개시의 일 실시예에 따라 컴퓨팅 장치에 의해 수행되는 다중 입력 구조를 이용하는 신경망 모델의 증강 방법이 개시된다. 상기 방법은, 복수의 입력 데이터를 수신하기 위해 제1 모델의 입력 레이어를 변형하는 단계, 변형된 제1 모델의 적어도 하나의 중간 레이어의 채널 수를 증강시킴으로써 제2 모델을 생성하는 단계, 상기 제2 모델의 적어도 하나의 파라미터를 상기 변형된 제1 모델과 공유하며 상기 변형된 제1 모델 및 상기 제2 모델을 학습시키는 단계 및 학습이 완료된 후, 상기 변형된 제1 모델의 입력 레이어를 변형 전 상태로 복귀시키는 단계를 포함한다.
청구항
번호청구항
1

적어도 하나의 프로세서를 포함하는 컴퓨팅 장치에 의해 수행되는, 다중 입력 구조를 이용하는 신경망 모델의 증강 방법으로서,복수의 입력 데이터를 수신하기 위해 제1 모델의 입력 레이어를 변형하는 단계; 변형된 제1 모델의 적어도 하나의 중간 레이어의 채널 수를 증강시킴으로써 제2 모델을 생성하는 단계; 상기 제2 모델의 적어도 하나의 파라미터를 상기 변형된 제1 모델과 공유하며 상기 변형된 제1 모델 및 상기 제2 모델을 학습시키는 단계; 및학습이 완료된 후, 상기 변형된 제1 모델의 입력 레이어를 변형 전 상태로 복귀시키는 단계; 를 포함하는, 방법.

2

제1항에 있어서, 상기 제1 모델의 입력 레이어를 변형하는 단계는,상기 입력 데이터의 개수에 대응하여 상기 제1 모델의 입력 레이어의 입력 경로의 개수를 증가시킴으로써 상기 변형된 제1 모델을 생성하는 단계;를 포함하는, 방법.

3

제2항에 있어서,상기 변형된 제1 모델의 입력 경로의 개수는 2인, 방법.

4

제2항에 있어서, 상기 변형된 제1 모델 및 상기 제2 모델을 학습시키는 단계는,상기 변형된 제1 모델의 증가된 입력 경로들 각각에 동일한 데이터를 입력하는 단계; 및상기 제2 모델의 증가된 입력 경로들 각각에 서로 다른 데이터를 입력하는 단계; 를 포함하는, 방법.

5

제4항에 있어서, 상기 서로 다른 데이터는, 하나의 데이터가 증강됨으로써 생성된 것인, 방법.

6

제4항에 있어서,상기 제2 모델은, 상기 변형된 제1 모델의 파라미터를 미리 설정된 개수로 증강시킴으로써 최대 크기의 모델이 생성되고, 상기 최대 크기의 모델을 구성하는 복수의 파라미터들 중 적어도 일부가 불활성화된 모델인, 방법.

7

제6항에 있어서,상기 변형된 제1 모델 및 상기 제2 모델을 학습시키는 단계는,매 학습 단계마다 상기 최대 크기의 모델을 구성하는 복수의 파라미터들 중 불활성화되는 파라미터를 랜덤하게 선택함으로써 상기 제2 모델의 구조를 변경하는 단계;를 포함하는, 방법.

8

제4항에 있어서,상기 변형된 제1 모델의 입력 레이어를 변형 전 상태로 복귀시키는 단계는, 상기 변형된 제1 모델의 입력 레이어의 파라미터들을 합산함으로써 복귀된 제1 모델의 입력 레이어의 가중치를 생성하는 단계;를 포함하는, 방법.

9

제1항에 있어서,상기 변형된 제1 모델 및 상기 제2 모델은,학습 과정에서 각 모델의 배치 정규화(batch normalization) 레이어의 평균 및 분산을 공유하는, 방법.

10

제9항에 있어서,상기 변형된 제1 모델 및 제2 모델을 학습시키는 단계는,미리 설정된 주기에 따라, 상기 변형된 제1 모델의 배치 정규화 레이어의 평균과 분산 및 상기 제2 모델의 배치 정규화 레이어의 평균과 분산을 재설정하는 단계;를 포함하는, 방법.

11

제1항에 있어서,상기 제1 모델은 CNN(Convolutional Neural Network) 모델이고, 상기 입력 데이터는 이미지인, 방법.

12

컴퓨터 판독가능 저장 매체 저장된 컴퓨터 프로그램(program)으로서, 상기 컴퓨터 프로그램은 하나 이상의 프로세서(processor)에서 실행되는 경우, 다중 입력 구조를 이용하는 신경망 모델의 증강을 위한 동작들을 수행하도록 하며,상기 동작은, 복수의 입력 데이터를 수신하기 위해 제1 모델의 입력 레이어를 변형하는 동작; 변형된 제1 모델의 적어도 하나의 중간 레이어의 채널 수를 증강시킴으로써 제2 모델을 생성하는 동작; 상기 제2 모델의 적어도 하나의 파라미터를 변형된 제1 모델과 공유하며 상기 변형된 제1 모델 및 상기 제2 모델을 학습시키는 동작; 및학습이 완료된 후, 상기 변형된 제1 모델의 입력 레이어를 변형 전 상태로 복귀시키는 동작; 을 포함하는, 컴퓨터 프로그램.

13

다중 입력 구조를 이용하는 신경망 모델의 증강을 수행하기 위한 컴퓨팅 장치로서,적어도 하나의 코어(core)를 포함하는 프로세서(processor); 및상기 프로세서에서 실행 가능한 프로그램 코드(code)들을 포함하는 메모리(memory);를 포함하고,상기 프로세서는,복수의 입력 데이터를 수신하기 위해 제1 모델의 입력 레이어를 변형하고, 변형된 제1 모델의 적어도 하나의 중간 레이어의 채널 수를 증강시킴으로써 제2 모델을 생성하고, 상기 제2 모델의 적어도 하나의 파라미터를 상기 변형된 제1 모델과 공유하며 상기 변형된 제1 모델 및 상기 제2 모델을 학습시키고, 학습이 완료된 후, 상기 변형된 제1 모델의 입력 레이어를 변형 전 상태로 복귀시키는, 장치.