기계학습 모델을 이용한 자연어 생성 시스템, 방법, 및 컴퓨터 판독가능매체
Natural Laguage Generating System Using Machine Learning Moodel, Method and Computer-readable Medium Thereof
특허 요약
본 발명은 입력되는 사용자 발화의 의미표현으로부터 사용자가 원하는 정보에 대한 시스템 발화를 생성하는, 자연어 생성 시스템, 방법, 및 컴퓨터-판독가능매체에 관한 것으로서, 본 발명의 일 실시예에 따른 자연어 생성 시스템은, 의미표현태그에 의하여 표현되는 출력의미표현정보를 수신하는 의미표현정보수신부; 의미표현태그에 포함된 어휘의 일부를 학습된 순환신경망 모델의 동작을 위한 토큰으로 치환하는 탈어휘화부; 상기 출력의미표현정보를 기초로 벡터형태의 출력의미표현정보벡터를 생성하는 의미인코딩부; 학습된 순환신경망 모델에 의하여 상기 출력의미표현정보벡터에 표현된 데이터를 기초로 시스템 발화의 문장구조를 추론하는 문장추론부; 및 추론된 상기 시스템 발화의 문장구조 및 상기 토큰에 지정된 어휘를 기초로 사용자가 원하는 정보에 대한 출력 자연어 텍스트를 생성하는 어휘화부;를 포함한다.
청구항
번호청구항
1

삭제

2

기계학습 모델을 이용한 자연어 생성 시스템으로서,의미표현태그에 의하여 표현되는 출력의미표현정보를 수신하는 의미표현정보수신부;의미표현태그에 포함된 어휘의 일부를 학습된 순환신경망 모델의 동작을 위한 토큰으로 치환하는 탈어휘화부;상기 출력의미표현정보를 기초로 벡터형태의 출력의미표현정보벡터를 생성하는 의미인코딩부;학습된 순환신경망 모델에 의하여 상기 출력의미표현정보벡터에 표현된 데이터를 기초로 시스템 발화의 문장구조를 추론하는 문장추론부; 및추론된 상기 시스템 발화의 문장구조 및 상기 토큰에 지정된 어휘를 기초로 사용자가 원하는 정보에 대한 출력 자연어 텍스트를 생성하는 어휘화부;를 포함하고,상기 의미표현태그는,상기 자연어 생성 시스템으로부터 도출되는 상기 시스템 발화의 유형을 나타내는 발화유형태그;상기 시스템 발화에 포함되는 정보의 분류를 나타내는 2 이상의 데이터분류태그;상기 2 이상의 데이터분류태그에 각각 할당되는 값인 데이터값태그;를 포함하고,상기 의미표현정보수신부는,상기 발화유형태그, 상기 데이터분류태그, 및 상기 데이터값태그를 포함하는 상기 의미표현태그에 의하여 표현되는 상기 출력의미표현정보를 수신하는, 자연어 생성 시스템.

3

청구항 2에 있어서,상기 탈어휘화부는,상기 데이터값태그에 의하여 표현되는 상기 출력의미표현정보에 포함되는 사용자의 고유정보를 상기 학습된 순환신경망 모델의 동작을 위한 슬롯토큰으로 치환하는, 자연어 생성 시스템.

4

청구항 3에 있어서,상기 의미인코딩부는,상기 출력의미표현정보를 구성하는 상기 의미표현태그 각각에 벡터를 할당하고,상기 의미표현태그 각각에 할당된 벡터를 결합하여 n차원의 출력의미표현정보벡터를 생성하고,n은 1 이상의 자연수인, 자연어 생성 시스템.

5

청구항 4에 있어서,상기 의미인코딩부는, 상기 발화유형태그에 벡터를 할당하여 발화유형태그벡터를 생성하고,상기 데이터분류태그에 벡터를 할당하여 데이터분류태그벡터를 생성하고,상기 데이터분류태그에 할당되는 상기 데이터값태그 혹은 상기 데이터값태그에 할당된 토큰에 벡터를 할당하여 데이터값태그벡터를 생성하고, 상기 발화유형태그벡터, 상기 데이터분류태그벡터, 및 상기 데이터값태그벡터를 결합하여 n차원의 출력의미표현정보벡터를 생성하는, 자연어 생성 시스템.

6

청구항 4에 있어서,상기 문장추론부는,복수개의 LSTM으로 구성된 상기 학습된 순환 신경망 모델에 의하여 구현되고,상기 학습된 순환 신경망 모델은,복수의 학습대상의 의미표현태그를 입력값으로 하고, 상기 복수의 학습대상의 의미표현태그에 각각 대응되는 학습대상의 복수의 정답문장의 역순의 문장이 출력값으로 하여 학습되는, 자연어 생성 시스템.

7

청구항 6에 있어서,상기 문장추론부는,상기 출력의미표현정보벡터가 상기 학습된 순환 신경망 모델의 은닉상태벡터의 초기값으로서 첫번째 LSTM으로 입력되고,복수의 LSTM으로 구성된 상기 학습된 순환 신경망 모델에 의하여 상기 시스템 발화의 문장구조의 역순으로 상기 시스템 발화를 구성하는 문장단위를 추론하고, 각각 추론된 하나의 문장단위가 상기 학습된 순환 신경망 모델의 그 다음의 LSTM에 입력되어 다음 문장단위를 추론하는, 자연어 생성 시스템.

8

청구항 7에 있어서,상기 문장추론부는,상기 출력의미표현정보벡터가 상기 학습된 순환 신경망 모델의 은닉상태벡터의 초기값으로서 입력되는 첫번째 LSTM에서 가장 높은 확률을 갖는 제1문장단위에 기반하여 시스템 발화의 제1문장구조를 추론하고, 상기 출력의미표현정보벡터가 상기 학습된 순환 신경망 모델의 은닉상태벡터의 초기값으로서 입력되는 첫번째 LSTM에서 두번째로 높은 확률을 갖는 제2문장단위에 기반하여 시스템 발화의 제2문장구조를 추론하는, 자연어 생성 시스템.

9

청구항 7에 있어서,상기 문장추론부는,상기 시스템 발화의 문장구조의 시작에 시작토큰을 부여하고, 상기 시스템 발화의 문장구조의 종료에 종료토큰을 부여하고,상기 학습된 순환 신경망 모델에 의하여 상기 시스템 발화의 문장구조의 역순으로 상기 시스템 발화를 구성하는 문장단위를 추론하는데 있어서, 상기 종료토큰 및 상기 출력의미표현정보벡터가 상기 순환 신경망 모델의 첫번째 LSTM의 입력 문장단위로 입력되고,상기 첫번째 LSTM에서 출력되는 문장단위에 있어서 최상위 확률값 및 차상위 확률값을 갖는 문장단위인 제1 문장단위 및 제2 문장단위를 선별하고,상기 제1문장단위를 기초로 상기 복수의 LSTM으로 이루어진 상기 학습된 순환 신경망 모델로부터 도출되는 제1문장구조를 생성하고,상기 제2문장단위를 기초로 상기 복수의 LSTM으로 이루어진 상기 학습된 순환 신경망 모델로부터 도출되는 제2문장구조를 생성하고,상기 제1문장구조 및 제2문장구조와 관련된 소프트맥스 확률값에 기초하여 제1문장구조 및 제2문장구조 중 어느 하나를 최종 문장구조로 선택하는, 자연어 생성 시스템.

10

청구항 9에 있어서,상기 어휘화부는,상기 문장추론부에서 상기 시스템 발화의 문장구조의 역순으로 추론된 상기 최종 문장구조를 원래의 문장구조로 순서를 정렬하고,상기 출력의미표현정보벡터를 기초로 상기 슬롯토큰의 자리에 해당하는 어휘를 대입하는, 자연어 생성 시스템.

11

삭제

12

1 이상의 프로세서 및 1 이상의 메모리를 포함하는 컴퓨팅 장치로 구현되는 기계학습 모델을 이용한 자연어 생성방법으로서,의미표현태그에 의하여 표현되는 출력의미표현정보를 수신하는 의미표현정보수신단계;의미표현태그에 포함된 어휘의 일부를 학습된 순환신경망 모델의 동작을 위한 토큰으로 치환하는 탈어휘화단계;상기 출력의미표현정보를 기초로 벡터형태의 출력의미표현정보벡터를 생성하는 의미인코딩단계;학습된 순환신경망 모델에 의하여 상기 출력의미표현정보벡터에 표현된 데이터를 기초로 시스템 발화의 문장구조를 추론하는 문장추론단계; 및추론된 상기 시스템 발화의 문장구조 및 상기 토큰에 지정된 어휘를 기초로 사용자가 원하는 정보에 대한 출력 자연어 텍스트를 생성하는 어휘화단계;를 포함하고,상기 의미표현태그는,상기 자연어 생성 시스템으로부터 도출되는 상기 시스템 발화의 유형을 나타내는 발화유형태그;상기 시스템 발화에 포함되는 정보의 분류를 나타내는 2 이상의 데이터분류태그;상기 2 이상의 데이터분류태그에 각각 할당되는 값인 데이터값태그;를 포함하고,상기 의미표현정보수신단계는,상기 발화유형태그, 상기 데이터분류태그, 및 상기 데이터값태그를 포함하는 상기 의미표현태그에 의하여 표현되는 상기 출력의미표현정보를 수신하는, 자연어 생성방법.

13

삭제

14

기계학습 모델을 이용한 자연어 생성 방법을 구현하기 위한 컴퓨터-판독가능 매체로서, 상기 컴퓨터-판독가능 매체는, 컴퓨팅 장치로 하여금 이하의 단계들을 수행하도록 하는 명령들을 저장하며, 상기 단계들은:의미표현태그에 의하여 표현되는 출력의미표현정보를 수신하는 의미표현정보수신단계;의미표현태그에 포함된 어휘의 일부를 학습된 순환신경망 모델의 동작을 위한 토큰으로 치환하는 탈어휘화단계;상기 출력의미표현정보를 기초로 벡터형태의 출력의미표현정보벡터를 생성하는 의미인코딩단계;학습된 순환신경망 모델에 의하여 상기 출력의미표현정보벡터에 표현된 데이터를 기초로 시스템 발화의 문장구조를 추론하는 문장추론단계; 및추론된 상기 시스템 발화의 문장구조 및 상기 토큰에 지정된 어휘를 기초로 사용자가 원하는 정보에 대한 출력 자연어 텍스트를 생성하는 어휘화단계;를 포함하고,상기 의미표현태그는,상기 자연어 생성 시스템으로부터 도출되는 상기 시스템 발화의 유형을 나타내는 발화유형태그;상기 시스템 발화에 포함되는 정보의 분류를 나타내는 2 이상의 데이터분류태그;상기 2 이상의 데이터분류태그에 각각 할당되는 값인 데이터값태그;를 포함하고,상기 의미표현정보수신단계는,상기 발화유형태그, 상기 데이터분류태그, 및 상기 데이터값태그를 포함하는 상기 의미표현태그에 의하여 표현되는 상기 출력의미표현정보를 수신하는, 컴퓨터-판독가능 매체.