고려소프트웨어
토목공사내역 표준공사코드 입력 자동화 장치 및 방법
APPARATUS AND METHOD FOR AUTOMATICALLY CONVERTING STANDARD CONSTRUCTION CODE
특허 요약
토목공사내역 표준공사코드 입력 자동화 장치 및 방법이 개시되며, 본원의 일 실시예에 따른 토목공사내역 표준공사코드 입력 자동화 방법은, (a) 미리 정의된 표준공사코드 및 적어도 하나의 내역서에 포함된 내역 정보를 이용하여 토목 분야에 특화된 말뭉치인 토목 용어 사전을 생성하는 단계, (b) 상기 표준공사코드를 식별하고자 하는 타겟 내역서에 포함된 타겟 내역 정보를 획득하는 단계, (c) 상기 토목 용어 사전을 이용하여 상기 타겟 내역 정보를 복수의 타겟 문자열로 토큰화 하는 단계 및 (d) 상기 표준공사코드에 대응하는 복수의 기준 문자열과 상기 복수의 타겟 문자열 간의 유사도를 기초로 하여 상기 타겟 내역 정보에 부합하는 상기 표준공사코드를 탐색하는 단계를 포함할 수 있다.
청구항
번호청구항
1

토목공사내역 표준공사코드 입력 자동화 장치에 의해 수행되는 토목공사내역 표준공사코드 입력 자동화 방법에 있어서,(a) 미리 정의된 표준공사코드 및 적어도 하나의 내역서에 포함된 내역 정보를 이용하여 토목 분야에 특화된 말뭉치인 토목 용어 사전을 생성하는 단계;(b) 상기 표준공사코드를 식별하고자 하는 타겟 내역서에 포함된 타겟 내역 정보를 획득하는 단계;(c) 상기 토목 용어 사전을 이용하여 상기 타겟 내역 정보를 복수의 타겟 문자열로 토큰화 하는 단계; 및(d) 상기 표준공사코드에 대응하는 복수의 기준 문자열과 상기 복수의 타겟 문자열 간의 유사도를 기초로 하여 상기 타겟 내역 정보에 부합하는 상기 표준공사코드를 탐색하는 단계,를 포함하고,상기 (c) 단계는,토목 용어가 문자열 길이가 길수록 해당 용어의 본래 의미를 내포할 가능성이 상대적으로 높은 특성을 고려하여, 상기 토목 용어 사전에 포함된 문자열을 상기 문자열 길이를 기준으로 하여 내림차순으로 정렬하는 단계; 및상기 정렬된 문자열의 순서를 고려하여 상기 타겟 내역 정보를 토큰화 하는 단계,를 포함하는 것인, 자동화 방법.

1

제1항에 있어서,상기 (b) 단계는,상기 타겟 내역 정보의 상위 계층 정보인 제1계층 정보를 획득하는 것이고,상기 (d) 단계는,상기 제1계층 정보를 이용하여 토큰화 된 타겟 문자열과, 상기 표준공사코드의 상위 계층 정보인 제2계층 정보를 반영한 기준 문자열 간의 상기 유사도를 산출하는 단계,를 포함하는 것인, 자동화 방법.

1

제2항에 있어서,상기 (d) 단계는,상기 제1계층 정보 및 상기 제2계층 정보를 미반영한 타겟 문자열과 기준 문자열 간의 유사도가 미리 설정된 임계값 미만이면, 상기 제1계층 정보를 반영한 타겟 문자열과 상기 제2계층 정보를 반영한 기준 문자열 간의 상기 유사도를 산출하는 것인, 자동화 방법.

1

삭제

1

제1항에 있어서,상기 (a) 단계는,상기 내역 정보에 포함된 공백 및 특수문자를 제거하는 전처리를 적용하는 단계; 및상기 전처리가 적용된 내역 정보를 기초로 하여 임베딩 단어 벡터를 생성하는 토크나이징을 수행하는 단계,를 포함하는 것인, 자동화 방법.

1

제1항에 있어서,상기 (d) 단계에서 상기 유사도가 미리 설정된 임계값 미만으로 산출된 상기 기준 문자열과 상기 타겟 문자열에 대하여 상기 토목 용어 사전을 이용하여 추가 세분화를 수행한 후 재산출된 상기 유사도가 상기 임계값 이상이면, 상기 추가 세분화가 적용된 토큰을 결합한 문자열을 상기 토목 용어 사전에 추가하는 단계,를 더 포함하는 것인, 자동화 방법.

1

토목공사내역 표준공사코드 입력 자동화 장치에 있어서,미리 정의된 표준공사코드 및 적어도 하나의 내역서에 포함된 내역 정보를 이용하여 토목 분야에 특화된 말뭉치인 토목 용어 사전을 생성하는 말뭉치 생성부;상기 표준공사코드를 식별하고자 하는 타겟 내역서에 포함된 타겟 내역 정보를 획득하는 데이터 입력부;상기 토목 용어 사전을 이용하여 상기 타겟 내역 정보를 복수의 타겟 문자열로 토큰화 하는 토큰화 수행부; 및상기 표준공사코드에 대응하는 복수의 기준 문자열과 상기 복수의 타겟 문자열 간의 유사도를 기초로 하여 상기 타겟 내역 정보에 부합하는 상기 표준공사코드를 탐색하는 표준공사코드 탐색부,를 포함하고,상기 토큰화 수행부는,토목 용어가 문자열 길이가 길수록 해당 용어의 본래 의미를 내포할 가능성이 상대적으로 높은 특성을 고려하여, 상기 토목 용어 사전에 포함된 문자열을 상기 문자열 길이를 기준으로 하여 내림차순으로 정렬하고, 상기 정렬된 문자열의 순서를 고려하여 상기 타겟 내역 정보를 토큰화 하는 것인, 자동화 장치.

1

제7항에 있어서,상기 데이터 입력부는,상기 타겟 내역 정보의 상위 계층 정보인 제1계층 정보를 획득하는 것이고,상기 표준공사코드 탐색부는,상기 제1계층 정보를 이용하여 토큰화 된 타겟 문자열과, 상기 표준공사코드의 상위 계층 정보인 제2계층 정보를 반영한 기준 문자열 간의 상기 유사도를 산출하는 것인, 자동화 장치.

1

제8항에 있어서,상기 표준공사코드 탐색부는,상기 제1계층 정보 및 상기 제2계층 정보를 미반영한 타겟 문자열과 기준 문자열 간의 유사도가 미리 설정된 임계값 미만이면, 상기 제1계층 정보를 반영한 타겟 문자열과 상기 제2계층 정보를 반영한 기준 문자열 간의 상기 유사도를 산출하는 것인, 자동화 장치.

1

삭제