인핸스
대규모 언어 모델 기반 반정형 데이터 자동분류 시스템
SYSTEM FOR AUTOMATIC CLASSIFICATION OF SEMI-STRUCTURED DATA BASED ON LARGE-SCALE LANGUAGE MODELS
특허 요약
본 발명은 대규모 언어 모델 기반 반정형 데이터 자동분류 시스템에 관한 것이다. 본 발명에 따른 대규모 언어 모델 기반 반정형 데이터 자동분류 시스템은 웹 상에서 정보를 추출하고, 반정형 데이터를 수집하는 데이터 수집 모듈과, 데이터 수집 모듈을 통해 수집되는 데이터에 대한 전처리를 수행하는 데이터 전처리 모듈과, 데이터 전처리 모듈에 의해 전처리가 수행된 데이터로부터 핵심 키워드를 식별하고 추출하는 키워드 추출 모듈과, 키워드를 수신하고 대규모 언어 모델을 이용하여 메타 정보를 추출하는 LLM 엔진 및 메타 정보와 데이터베이스에 저장된 정보를 비교하여 매칭을 수행하는 매칭 엔진을 포함한다.
청구항
번호청구항
1

웹 상에서 정보를 추출하고, 반정형 데이터를 수집하는 데이터 수집 모듈; 상기 데이터 수집 모듈을 통해 수집되는 데이터에 대한 전처리를 수행하는 데이터 전처리 모듈; 상기 데이터 전처리 모듈에 의해 전처리가 수행된 데이터로부터 핵심 키워드를 식별하고 추출하는 키워드 추출 모듈;상기 키워드를 수신하고 대규모 언어 모델을 이용하여 메타 정보를 추출하는 LLM 엔진; 및상기 메타 정보와 데이터베이스에 저장된 정보를 비교하여 매칭을 수행하는 매칭 엔진을 포함하고,상기 LLM 엔진은 프롬프트 템플릿을 생성하는 프롬프트 엔지니어링 모듈과, 추출된 상기 키워드와 제품명을 기반으로 사용자 입력을 자동으로 생성하여 상기 대규모 언어모델에 콘텍스트로 전달하는 콘텍스트 생성 모듈을 포함하고, 제품명, 회사명, 용량, 용량 단위, 수량을 포함하는 메타 데이터를 자동 추출하고, 상기 프롬프트 엔지니어링 모듈은 각 상품별 메타 데이터 추출을 위해 파라미터를 조합하여 쿼리 파라미터를 탐색하고 적용하고,상기 매칭 엔진은 상기 메타 데이터와 상기 데이터베이스 내의 제품 정보를 임베딩 벡터로 변환하여 비교하는 유사성 측정 알고리즘을 통해 데이터베이스와 상기 메타 데이터를 비교하여 매칭을 수행하고, 매칭된 제품 정보에 고유 ID를 부여하여 저장하는 것인 대규모 언어 모델 기반 반정형 데이터 자동분류 시스템.