유니바(UNIVA Corp.)
경량화 자연어처리 인공지능 언어모델을 위한 학습데이터 처리 장치 및 방법
APPARATUS AND METHOD OF PROCESSING TRAINING DATA FOR A LIGHTWEIGHT NATURAL LANGUAGE PROCESSING ARTIFICIAL INTELLIGENCE LANGUAGE MODEL
특허 요약
본 발명은 경량화 자연어처리 인공지능 언어모델을 위한 학습데이터의 난이도 상향 전처리 방법에 관한 것으로, 본 발명의 일실시예에 따르면 경량화 자연어처리 인공지능 언어모델을 위한 학습데이터의 난이도 상향 전처리 방법은 지시 데이터(instruction data) 수집 및 생성 단계, 상기 지시 데이터를 입력 정보, 지시 문장 및 출력 정보로 구별하는 단계, 파싱 알고리즘에 기반하여 상기 지시 문장을 단어 단위로 구별하는 단계, 상기 구별된 단어 단위에 대하여 난수 생성, 입력 리스트 마스킹 및 마스킹 청크 재조합 중 적어도 하나를 포함하는 마스킹 전처리를 수행하여 마스킹 전처리된 지시 문장을 출력하는 단계 및 상기 입력 정보, 상기 출력 정보 및 상기 마스킹 전처리된 지시 문장을 재조합하여 데이터베이스화하는 단계를 포함할 수 있다.
청구항
번호청구항
1

오픈 소스 데이터베이스로부터 검색된 제1 지시 데이터를 수집하고, 사용자 입력 정보와 지시 데이터 생성 모델을 이용하여 제2 지시 데이터를 생성하는 지시 데이터 구축부;입력 정보, 지시 문장 및 출력 정보로 상기 제1 및 제2 지시 데이터를 구별 및 분해하는 지시 데이터 분해부; 파싱(parsing) 알고리즘에 기반하여 상기 지시 문장을 단어 단위로 구별하여 복수의 단어로 분해하는 지시 문장 분해부;난수 생성, 입력 리스트 마스킹 및 마스킹 청크 재조합을 통하여 상기 구별된 복수의 단어 중 적어도 하나의 단어를 마스킹 처리하여 마스킹 처리된 지시 문장을 출력하는 마스킹 처리부; 및상기 입력 정보, 상기 출력 정보 및 상기 마스킹 처리된 지시 문장을 조합하여 학습 데이터로 데이터베이스를 구축하는 학습 데이터 처리부를 포함하는 것을 특징으로 하는 학습데이터 처리 장치.