트랜스포머 신경망을 위한 인공지능신경망가속기 및 그 방법
ARTIFICIAL INTELLIGENCE NEURAL NETWORK ACCELERATOR AND METHOD FOR TRANSFORMER NEURAL NETWORK
특허 요약
본 발명의 트랜스포머 신경망을 위한 인공지능신경망가속기는, 입력토큰 단위로 출력토큰을 예측하되, n(이때, n은 2 이상의 자연수)개의 가중치를 이용하는 트랜스포머 모델에 의거하여 동작하는 다수의 트랜스포머 연산코어들을 포함하는 연산부; 상기 트랜스포머 신경망의 가중치들을 상기 트랜스포머 신경망의 a x b 커널 위치정보와 매칭시켜 학습한 결과로 미리 생성된 가중치임베딩로직을 구비하고, 외부메모리로부터 입력된 커널의 위치정보에 의거하여 암시적가중치를 생성하는 가중치생성기; 및 상기 가중치의 수에 의해 상기 트랜스포머 모델의 크기를 결정한 후, 상기 트랜스포머 연산코어들 각각의 동작을 제어하는 컨트롤러를 포함하되, 상기 컨트롤러는, 상기 다수의 트랜스포머 연산코어들 각각이, 상기 입력토큰의 획득에 응답하여 m(이 때, m은 m 003c# n 인 자연수)개의 가중치를 이용하는 축소된 트랜스포머 모델(이하, '축소모델'이라 칭함)을 이용하여 출력토큰을 예측하는 1차 예측을 수행하고, 상기 1차 예측 결과의 예측정확도가 미리 설정된 임계값 이하인 경우에만 상기 축소되기 이전의 트랜스포머 모델(이하, '기본모델'이라 칭함)을 이용하여 상기 입력토큰에 대한 출력토큰을 예측하는 2차 예측을 더 수행하도록 제어하고, 상기 다수의 트랜스포머 연산코어의 요청에 응답하여, 온-칩 네트워크를 통해 상기 암시적가중치를 제...(이하생략)
청구항
번호청구항
7

삭제

1

트랜스포머 신경망을 가속시키는 인공지능신경망가속기에 있어서, 상기 트랜스포머 신경망의 가중치 행렬의 일부를 지칭하는 특정 커널에 대한 위치정보와 그 위치에 대응한 가중치들을 매칭시켜 학습한 결과로 미리 생성된 가중치임베딩로직을 구비하고, 외부메모리로부터 입력된 특정 커널의 위치정보가 입력되면 상기 가중치임베딩로직에 의거하여 그 위치에 대응한 암시적가중치를 생성하는 가중치생성기;입력토큰 단위로 출력토큰을 예측하되, n(이때, n은 2 이상의 자연수)개의 가중치를 이용하는 트랜스포머 모델에 의거하여 동작하는 다수의 트랜스포머 연산코어들을 포함하는 연산부; 및상기 가중치의 수에 의해 상기 트랜스포머 모델의 크기를 결정한 후, 상기 트랜스포머 연산코어들 각각의 동작을 제어하는 컨트롤러를 포함하되,상기 컨트롤러는,상기 다수의 트랜스포머 연산코어들 각각이, 상기 입력토큰의 획득에 응답하여 m(이 때, m은 m 003c# n 인 자연수)개의 가중치를 이용하는 축소된 트랜스포머 모델(이하, ‘축소모델’이라 칭함)을 이용하여 출력토큰을 예측하는 1차 예측을 수행하고, 상기 1차 예측 결과의 예측정확도가 미리 설정된 임계값 이하인 경우에만 상기 축소되기 이전의 트랜스포머 모델(이하, ‘기본모델’이라 칭함)을 이용하여 상기 입력토큰에 대한 출력토큰을 예측하는 2차 예측을 더 수행하도록 제어하고,상기 다수의 트랜스포머 연산코어의 요청에 응답하여, 온-칩 네트워크를 통해 상기 암시적 가중치를 제공하는 것을 특징으로 하는 인공지능신경망가속기.

2

삭제

3

제1항에 있어서, 상기 가중치생성기는,상기 외부메모리로부터 부호압축된 상태로 입력된 커널의 위치정보의 압축을 해제하는 부호압축해제유닛; 및상기 가중치임베딩로직을 구비하고, 상기 부호압축해제유닛에서 압축 해제된 커널의 위치정보를 상기 가중치임베딩로직에 적용하여 상기 압축 해제된 커널의 위치에 대응한 암시적가중치를 생성하는 암시적가중치생성유닛을 포함하는 것을 특징으로 하는 인공지능신경망가속기.

4

제3항에 있어서, 상기 암시적가중치생성유닛은,상기 압축 해제된 커널의 위치정보를 이용하여 상기 암시적가중치를 생성하기 위한 곱셈 및 누적 연산을 수행하는 2D 맥 어레이; 및상기 커널의 위치정보에 대응한 가중치 임베딩을 골라 상기 2D 맥 어레이로 전달하는 가중치임베딩로직을 포함하는 것을 특징으로 하는 인공지능신경망가속기.

5

제3항에 있어서, 상기 가중치생성기는,상기 암시적가중치를 저장하는 트랜스포머 가중치메모리; 및상기 다수의 트랜스포머 연산코어들 중 적어도 하나의 요청에 응답하여, 온-칩 네트워크를 통해 상기 암시적가중치를 전달하는 온-칩 네트워크 스위치를 더 포함하는 것을 특징으로 하는 인공지능신경망가속기.

6

n(이때, n은 2 이상의 자연수)개의 가중치를 이용하는 트랜스포머 모델에 의거하여 동작하는 다수의 트랜스포머 연산코어를 구비하고 트랜스포머 신경망을 가속시키는 인공지능신경망가속기를 이용한 인공지능신경망가속방법에 있어서, 상기 인공지능신경망가속기가, 입력토큰의 획득에 응답하여 m(이 때, m은 m 003c# n 인 자연수)개의 가중치를 이용하는 축소된 트랜스포머 모델(이하, ‘축소모델’이라 칭함)을 이용하여 출력토큰을 예측하는 1차 예측을 수행하는 1차예측단계;상기 인공지능신경망가속기가, 상기 1차예측단계의 예측결과에 대한 예측정확도를 산출하는 예측정확도산출단계; 및상기 인공지능신경망가속기가, 상기 예측정확도가 미리 설정된 임계값 이하인 경우 축소되기 이전의 트랜스포머 모델(이하, ‘기본모델’이라 칭함)을 이용하여 상기 입력토큰에 대한 출력토큰을 예측하는 2차 예측을 더 수행하는 2차예측단계를 포함하되,상기 인공지능신경망가속기가, 상기 트랜스포머 신경망의 가중치 행렬의 일부를 지칭하는 특정 커널에 대한 위치정보와 그 위치에 대응한 가중치들을 매칭시켜 학습한 결과로 미리 생성된 가중치임베딩로직을 구비하고, 외부메모리로부터 입력된 특정 커널의 위치정보가 입력되면 상기 가중치임베딩로직에 의거하여 그 위치에 대응한 암시적가중치를 생성하는 암시적가중치생성단계;상기 인공지능신경망가속기가, 상기 암시적가중치를 저장하는 암시적가중치저장단계; 및상기 인공지능신경망가속기가, 온-칩 네트워크를 통해 상기 암시적가중치를 전달하는 암시적가중치전달단계를 더 포함하고,상기 1차예측단계 및 상기 2차예측단계 각각은,상기 암시적가중치를 이용하여 상기 입력토큰에 대한 출력토큰을 예측하는 것을 특징으로 하는 인공지능신경망가속방법.

8

제6항에 있어서, 상기 암시적가중치생성단계는,상기 외부메모리로부터 부호압축된 상태로 입력된 커널의 위치정보의 압축을 해제하는 부호압축해제단계를 더 포함하고,상기 부호압축해제단계에서 압축 해제된 커널의 위치정보를 상기 가중치임베딩로직에 적용하여 상기 압축 해제된 커널의 위치에 대응한 암시적가중치를 생성하는 것을 특징으로 하는 인공지능신경망가속방법.