메타 학습 기반 적응형 비트폭 양자화 인식 학습 방법
BITWIDTH-ADAPTIVE QUANTIZATION-AWARE TRAINING BASED ON META-LEARNING
특허 요약
본 발명의 메타 학습 기반 적응형 비트폭 양자화 인식 학습 방법은 메타 학습을 양자화 인식 학습(QAT) 방법으로 경량화하며 학습시키되 보다 적은 학습 계산 비용과 메모리 비용으로 모든 비트폭에 적응하며 학습할 수 있다. 추가적으로 본 발명은 퓨 샷 기반 분류 학습과 양자화 인식 학습을 통합하여 최적화 또는 메트릭 기반으로 메타 학습하여 학습 시 학습되지 않았던 대상 클래스뿐만 아니라 모든 비트 폭에 모델을 적용할 수 있다.
청구항
번호청구항
1

하나 이상의 프로세서와, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들 저장하는 메모리를 포함하는 컴퓨팅 장치에서 수행되는 방법으로,제1 인공 신경망 모델을 통해 배치 데이터 세트에 포함된 모든 데이터를 예측하여 소프트 레이블(soft label)을 구하는 단계;가중치와 활성화 각각에 대하여 양자화 비트폭(bitwidth)가 정의된 태스크를 M개 샘플링하는 단계;M개의 태스크를 수행하는 M개의 태스크 모델을 각각 배치 데이터 세트에 대하여 정의된 양자화 비트폭으로 가중치와 활성화를 양자화하며 학습시키되, 정답(ground truth)에 대한 제1 손실과 소프트 레이블에 대한 제2 손실을 반영하여 태스크 모델을 학습시키는 단계;M개의 태스크의 파라미터의 경사를 반영하여 제1 인공 신경망 모델의 파라미터를 갱신하는 단계;를 포함하는, 메타 학습 기반 적응형 비트폭 양자화 인식 학습 방법.

2

제 1 항에 있어서,태스크 모델을 학습시키는 단계는 :가중치와 활성화에 대하여 정의된 양자화 비트폭에 따라 양자화를 수행하는 단계;배치 데이터 세트의 정답(ground truth)에 대한 제1 손실을 계산하는 단계;배치 데이터 세트의 소프트 레이블에 대한 제2 손실을 계산하는 단계; 및제1 손실과 제2 손실을 반영한 태스크 모델의 파라미터의 경사(gradient)를 계산하는 단계;를 포함하는, 메타 학습 기반 적응형 비트폭 양자화 인식 학습 방법.

3

하나 이상의 프로세서와, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들 저장하는 메모리를 포함하는 컴퓨팅 장치에서 수행되는 방법으로,가중치와 활성화 각각에 대하여 양자화 비트폭이 정의된 태스크를 M개 샘플링하는 단계;M개의 태스크에 대하여 각각 각 태스크가 분류할 N개의 클래스를 결정하는 단계;M개의 태스크를 수행하는 M개의 태스크 모델 각각에 대하여 학습 데이터 세트로부터 퓨 샷 학습(Few Shot Learning)에 기반하여 학습하되, 정의된 양자화 비트폭으로 가중치와 활성화를 양자화하며 MAML(Model-Agnostic Meta-Learning) 방식으로 태스크 모델을 학습시키는 단계;M개의 태스크의 학습 파라미터의 경사를 반영하여 제1 메타 학습 모델의 학습 파라미터를 갱신하는 단계;를 포함하는, 메타 학습 기반 적응형 비트폭 양자화 인식 학습 방법.

4

제 3 항에 있어서,MAML 방식으로 태스크 모델을 학습시키는 단계는 :학습 데이터 세트로부터 결정된 N개의 분류 클래스에 속하는 데이터만을 포함하는 하위 데이터 세트를 구하고 하위 데이터 세트로부터 배치 서포트 세트를 샘플링하는 단계;제1 메타 학습 모델의 파라미터에 기초하여 태스크의 학습 파라미터를 초기화하는 단계;가중치와 활성화 각각에 대하여 정의된 비트폭으로 양자화를 수행하며 배치 서포트 세트를 학습시키되, 미리 설정된 횟수만큼 배치 서포트 세트를 반복하여 학습시키는 단계;학습된 파라미터의 가중치와 활성화에 대하여 정해진 비트폭으로 양자화를 수행하는 단계;상기 하위 데이터 세트로부터 배치 서포트 세트와 데이터가 중첩되지 않는 배치 쿼리 세트를 샘플링하는 단계;배치 쿼리 세트에 대한 제3 손실을 계산하는 단계; 및제3 손실을 반영한 파라미터의 경사를 계산하는 단계;를 포함하는, 메타 학습 기반 적응형 비트폭 양자화 인식 학습 방법.

5

하나 이상의 프로세서와, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들 저장하는 메모리를 포함하는 컴퓨팅 장치에서 수행되는 방법으로,태스크가 분류할 N개의 클래스를 결정하는 단계;학습 데이터 세트로부터 결정된 N개의 분류 클래스에 속하는 데이터만을 포함하는 하위 데이터 세트를 구성하고 하위 데이터 세트로부터 배치 서포트 세트를 샘플링하는 단계;상기 하위 데이터 세트로부터 배치 서포트 세트와 데이터가 중첩되지 않는 배치 쿼리 세트를 샘플링하는 단계;가중치와 활성화 각각에 대하여 양자화 비트폭이 정의된 태스크를 M개 샘플링하는 단계;M개의 태스크를 수행하는 M개의 태스크 모델 각각에 대하여 제2 메타 학습 모델의 파라미터의 가중치와 활성화에 대하여 정해진 비트폭으로 양자화를 수행하여 태스크의 파라미터를 설정한 후 배치 서포트 셋과 배치 쿼리 셋에 대하여 거리 기반의 메타 학습 방법으로 학습시키되, 배치 서포트 세트 학습 시 역전파를 사용하지 않고 태스크 모델을 학습시키는 단계;M개의 태스크의 파라미터의 경사를 반영하여 제2 메타 학습 모델의 파라미터를 갱신하는 단계;를 포함하는, 메타 학습 기반 적응형 비트폭 양자화 인식 학습 방법.

6

제 5 항에 있어서,태스크 모델을 학습시키는 단계는 :제2 메타 학습 모델의 파라미터의 가중치와 활성화에 대하여 정해진 비트폭으로 양자화를 수행하여 태스크의 파라미터를 설정하는 단계;거리 기반의 메타 학습 방법으로 배치 서포트 세트를 역전파를 사용하지 않고 학습하여 각 분류 클래스별로 임베딩 공간 내에서의 프로토타입을 구하는 단계;거리 기반의 메타 학습 방법으로 배치 쿼리 세트에 대한 제4 손실을 계산하는 단계; 및제4 손실을 반영한 태스크의 파라미터의 경사를 계산하는 단계; 를 포함하는, 메타 학습 기반 적응형 비트폭 양자화 인식 학습 방법.