숫자 환각 현상을 방지하는 전자 텍스트 문서 생성 방법 및 장치와, 상기 전자 텍스트 문서 생성 방법에 포함되는 숫자 매칭 방법
ELECTRONIC TEXT DOCUMENT GENERATING METHOD AND APPARATUS FOR PREVENTING NUMBER HALLUCINATION, AND NUMBER MATCHING METHOD INCLUDED IN THE ELECTRONIC TEXT DOCUMENT GENERATING METHOD
특허 요약
숫자 환각 현상을 방지하는 전자 텍스트 문서 생성 방법 및 장치와, 상기 전자 텍스트 문서 생성 방법에 포함되는 숫자 매칭 방법이 개시된다. 개시된 전자 텍스트 문서 생성 방법은, N(1 이상의 정수)개의 원본 숫자가 포함된 원본 전자 문서를 대규모 언어 모델(LLM)에 입력하여 M(1 이상의 정수)개의 제1 숫자를 포함하는 제1 전자 텍스트 문서를 생성하는 단계와, 상기 원본 전자 문서 및 상기 제1 전자 텍스트 문서를 미리 학습된 트랜스포머 모델에 입력하여 상기 N개의 원본 숫자와 대응되는 N개의 원본 임베딩 벡터 및 상기 M개의 제1 숫자와 대응되는 M개의 제1 임베딩 벡터를 생성하는 단계와, 상기 M개의 제1 임베딩 벡터와 상기 N개의 원본 임베딩 벡터를 각각 매칭시켜 제1 매칭 정보를 생성하는 단계와, 상기 제1 매칭 정보에 기초하여 상기 제1 전자 텍스트 문서를 수정하여 상기 원본 전자 문서와 대응되는 대상 전자 텍스트 문서를 생성하는 단계를 포함한다.
청구항
번호청구항
1

전자 텍스트 문서를 생성하는 방법에 있어서, N(1 이상의 정수)개의 원본 숫자가 포함된 원본 전자 문서를 대규모 언어 모델(LLM)에 입력하여 M(1 이상의 정수)개의 제1 숫자를 포함하는 제1 전자 텍스트 문서를 생성하는 단계;상기 원본 전자 문서 및 상기 제1 전자 텍스트 문서를 미리 학습된 트랜스포머 모델에 입력하여 상기 N개의 원본 숫자와 대응되는 N개의 원본 임베딩 벡터 및 상기 M개의 제1 숫자와 대응되는 M개의 제1 임베딩 벡터를 생성하는 단계; 상기 M개의 제1 임베딩 벡터와 상기 N개의 원본 임베딩 벡터를 각각 매칭시켜 제1 매칭 정보를 생성하는 단계; 및 상기 제1 매칭 정보에 기초하여 상기 제1 전자 텍스트 문서를 수정하여 상기 원본 전자 문서와 대응되는 대상 전자 텍스트 문서를 생성하는 단계;를 포함하는, 전자 텍스트 문서 생성 방법.

2

제1항에 있어서, 상기 원본 전자 문서는 금융/경제 분야의 전자 공시 문서와 대응되는, 전자 텍스트 문서 생성 방법.

3

제1항에 있어서, 상기 대규모 언어 모델은 ChatGPT와 대응되고, 상기 트랜스포머 모델은 BERT(Bidirectional Encoder Representations from Transformers) 기반의 모델과 대응되는, 전자 텍스트 문서 생성 방법.

4

제1항에 있어서, 상기 N개의 원본 임베딩 벡터 및 상기 M개의 제1 임베딩 벡터를 생성하는 단계는, 상기 원본 전자 문서를 상기 트랜스포머 모델에 입력하여 상기 N개의 원본 임베딩 벡터를 생성하는 단계; 및 상기 제1 전자 텍스트 문서를 상기 트랜스포머 모델에 입력하여 상기 M개의 제1 임베딩 벡터를 생성하는 단계;를 포함하는, 전자 텍스트 문서 생성 방법.

5

제1항에 있어서, 상기 제1 매칭 정보를 생성하는 단계는, 상기 M개의 제1 임베딩 벡터 중 제1-i 임베딩 벡터와 상기 N개의 원본 임베딩 벡터 각각에 대해 내적(inner product) 연산을 수행하여 N개의 내적값을 산출하는 단계;상기 N개의 내적값을 소프트맥스 함수에 입력하여 상기 N개의 내적값과 대응되는 N개의 확률값의 최대값을 산출하는 단계; 및상기 N개의 원본 임베딩 벡터 중 상기 N개의 확률값의 최대값과 대응되는 제1 원본 임베딩 벡터를 상기 제1-i 임베딩 벡터와 매칭하는 단계;를 포함하는, 전자 텍스트 문서 생성 방법.

6

제5항에 있어서, 상기 제1 원본 임베딩 벡터를 상기 제1-i 임베딩 벡터와 매칭하는 단계는, 상기 N개의 내적값 중 상기 N개의 확률값의 최대값과 대응되는 제1 내적값을 선택하는 단계; 및상기 N개의 원본 임베딩 벡터 중 상기 제1 내적값과 대응되는 상기 제1 원본 임베딩 벡터와 상기 제1-i 임베딩 벡터를 매칭하는 단계;를 포함하는, 전자 텍스트 문서 생성 방법.

7

제5항에 있어서, 상기 N개의 원본 임베딩 벡터에 순차적인 제1 인덱스를 부여하여 상기 N개의 원본 임베딩 벡터의 제1 리스트 정보를 생성하고, 상기 M개의 제1 임베딩 벡터에 순차적인 제2 인덱스를 부여하여 상기 M개의 제1 임베딩 벡터의 제2 리스트 정보를 생성하는 단계;를 더 포함하되, 상기 대상 전자 텍스트 문서를 생성하는 단계는, 상기 제1 매칭 정보, 상기 제1 리스트 정보 및 상기 제2 리스트 정보에 기초하여 상기 N개의 원본 숫자와 상기 M개의 제1 숫자를 각각 매칭시켜 제2 매칭 정보를 생성하는 단계; 및 상기 제2 매칭 정보에 기초하여 상기 제1 전자 텍스트 문서를 수정하여 상기 대상 전자 텍스트 문서를 생성하는 단계;를 포함하는, 전자 텍스트 문서 생성 방법.

8

제7항에 있어서, 상기 제2 매칭 정보를 생성하는 단계는, 상기 제1 리스트 정보에 기초하여 상기 N개의 원본 숫자 중 상기 제1 원본 임베딩 벡터와 대응되는 제1 원본 숫자를 검색하고, 상기 제2 리스트 정보에 기초하여 상기 M개의 제1 숫자 중 상기 제1-i 임베딩 벡터와 대응되는 제1-i 숫자를 검색하고, 상기 제1 원본 숫자와 상기 제1-i 숫자를 매칭하는, 전자 텍스트 문서 생성 방법.

9

N(1 이상의 정수)개의 원본 숫자가 포함된 원본 전자 문서를 대규모 언어 모델에 입력하여 M(1 이상의 정수)개의 제1 숫자를 포함하는 제1 전자 텍스트 문서를 생성하는 단계;상기 원본 전자 문서 및 상기 제1 전자 텍스트 문서를 미리 학습된 트랜스포머 모델에 입력하여 상기 N개의 원본 숫자와 대응되는 N개의 원본 임베딩 벡터 및 상기 M개의 제1 숫자와 대응되는 M개의 제1 임베딩 벡터를 생성하는 단계; 상기 N개의 제1 임베딩 벡터와 상기 M개의 원본 임베딩 벡터를 각각 매칭하는 단계; 및 상기 제1 매칭 정보에 기초하여 상기 N개의 원본 숫자와 상기 M개의 제1 숫자를 각각 매칭하는 단계;를 포함하는, 전자 문서 간의 숫자 매칭 방법.

10

제1항 및 제9항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.

11

컴퓨터에서 판독 가능한 명령을 저장하는 메모리부; 및상기 명령을 실행하도록 구현되는 프로세서부;를 포함하되, 상기 프로세서부는, N(1 이상의 정수)개의 원본 숫자가 포함된 원본 전자 문서를 대규모 언어 모델(LLM)에 입력하여 M(1 이상의 정수)개의 제1 숫자를 포함하는 제1 전자 텍스트 문서를 생성하고, 상기 원본 전자 문서 및 상기 제1 전자 텍스트 문서를 미리 학습된 트랜스포머 모델에 입력하여 상기 N개의 원본 숫자와 대응되는 N개의 원본 임베딩 벡터 및 상기 M개의 제1 숫자와 대응되는 M개의 제1 임베딩 벡터를 생성하고, 상기 M개의 제1 임베딩 벡터와 상기 N개의 원본 임베딩 벡터를 각각 매칭시켜 제1 매칭 정보를 생성하고, 상기 제1 매칭 정보에 기초하여 상기 제1 전자 텍스트 문서를 수정하여 상기 원본 전자 문서와 대응되는 대상 전자 텍스트 문서를 생성하는, 전자 텍스트 문서 생성 장치.