실시간 이슈 탐지를 위한 일반 및 단기간 단어 사전 생성 및 단어 매칭 기법 및 그 장치
Method for Generation and Matching of Normal and Transient Dictionary for Realtime Topic Detection, and Apparatus thereof
특허 요약
본 발명은 단어 사전을 생성하는 방법과 그 장치 및 상기 생성한 단어 사전을 이용하여 실시간으로 발생하는 복수개의 문자열들에서 키워드와 관련된 문자열을 탐지하는 방법과 그 장치에 관한 것이다. 이를 위하여 본 발명은, 문자열과 키워드를 입력받고, 상기 문자열 중 상기 키워드를 포함하는 문자열을 선별하고, 상기 선별된 문자열에 포함된 단어 중 소정의 장기간 동안 소정의 기준 이상으로 빈발하는 단어인 빈발 단어를 추출하여, 상기 추출한 빈발 단어를 상기 키워드와 연관된 일반 단어로서 일반 단어 사전에 포함되도록 설정하는 일반 단어 사전 관리부, 및 상기 선별된 문자열에서 상기 일반 단어 사전에 포함되도록 설정한 상기 키워드와 연관된 일반 단어 및 상기 키워드를 포함하는 상기 일반 단어를 제거하고, 상기 일반 단어를 제거한 문자열에 포함된 단어 중 소정의 단기간 동안 소정의 기준 이상으로 빈발하는 단어인 단기간 빈발 단어를 추출하여, 상기 추출한 단기간 빈발 단어를 상기 키워드와 연관된 단기간 연관 단어로서 단기간 연관 단어 사전에 포함되도록 설정하는 단기간 연관 단어 사전 관리부를 포함하는 키워드에 대응하는 문자열 탐지를 위한 단어 사전 생성 장치를 제공한다.
청구항
번호청구항
1

문자열과 키워드를 입력받고, 상기 문자열 중 상기 키워드를 포함하는 문자열을 선별하고, 상기 선별된 문자열에 포함된 단어 중 소정의 장기간 동안 소정의 기준 이상으로 빈발하는 단어인 빈발 단어를 추출하여, 상기 추출한 빈발 단어를 상기 키워드와 연관된 일반 단어로서 일반 단어 사전에 포함되도록 설정하되, 상기 일반 단어 사전에 포함된 단어들과 상기 문자열에 포함된 단어들 사이에 매칭된 단어들의 개수, 상기 문자열에 포함된 단어들의 빈발 정도를 나타내는 지지도들의 합산값, 및 상기 지지도들의 평균값 중 적어도 하나를 기초로 매칭도를 산출하며, 상기 매칭도를 기초로 상기 키워드를 포함하는 문자열을 선별하는 일반 단어 사전 관리부; 및상기 선별된 문자열에서 상기 일반 단어 사전에 포함되도록 설정한 상기 키워드와 연관된 일반 단어 및 상기 키워드를 포함하는 상기 일반 단어를 제거하고, 상기 일반 단어를 제거한 문자열에 포함된 단어 중 소정의 단기간 동안 소정의 기준 이상으로 빈발하는 단어인 단기간 빈발 단어를 추출하여, 상기 추출한 단기간 빈발 단어를 상기 키워드와 연관된 단기간 연관 단어로서 단기간 연관 단어 사전에 포함되도록 설정하는 단기간 연관 단어 사전 관리부를 포함하는 키워드에 대응하는 문자열 탐지를 위한 단어 사전 생성 장치.

2

제1항에 있어서, 상기 일반 단어 사전 관리부는상기 입력받은 문자열에 포함된 단어와 상기 입력받은 키워드 또는 상기 일반 단어 사전에 포함된 상기 키워드와 연관된 일반 단어를 매칭하여, 상기 키워드 또는 상기 일반 단어 사전에 포함된 상기 키워드와 연관된 일반 단어를 포함하는 문자열을 선별하는 문자열 선별부;상기 선별된 문자열에 포함된 단어 중 미리 정해진 최소 지지도 이상으로 소정의 장기간 동안 빈발한 단어를 상기 빈발 단어로 추출하는 빈발 단어 추출부; 및상기 추출한 빈발 단어를 상기 키워드와 연관된 일반 단어로서 일반 단어 사전에 포함되도록 설정하여 상기 일반 단어 사전을 갱신하는 일반 단어 사전 갱신부를 포함하는 것을 특징으로 하는 문자열 탐지를 위한 단어 사전 생성 장치.

3

제1항에 있어서, 상기 단기간 연관 단어 사전 관리부는상기 선별된 문자열에서 상기 일반 단어 사전에 포함되도록 설정한 상기 키워드와 연관된 일반 단어 및 상기 키워드를 포함하는 상기 일반 단어를 제거하는 일반 단어 제거부;상기 소정의 단기간 동안 빈발한 정도가 미리 정해진 최소 지지도에 따른 정도 이상으로 빈발한 단어를 상기 단기간 빈발 단어로 추출하되, 상기 단어의 빈발한 정도를 계산할 때 상기 단어가 포함된 문자열이 발생한 시간이 경과할수록 상기 빈발한 정도를 작게 계산하여, 상기 단기간 빈발 단어를 추출하는 단기간 빈발 단어 추출부; 및상기 추출한 단기간 빈발 단어를 상기 키워드와 연관된 단기간 연관 단어로서 상기 단기간 연관 단어 사전에 포함되도록 설정하여 상기 단기간 연관 단어 사전을 갱신하는 단기간 연관 단어 사전 갱신부를 포함하는 것을 특징으로 하는 문자열 탐지를 위한 단어 사전 생성 장치.

4

불용어가 포함된 문자열을 입력받고, 미리 정의된 일반 불용어 사전에 포함된 일반 불용어와, 상기 문자열들 중 소정의 기간 동안 일정한 기준 이상으로 빈발한 단어를 특수 불용어로 선별하여, 상기 일반 불용어 또는 상기 특수 불용어 중 적어도 하나 이상을 상기 문자열에서 제거하는 불용어 제거부;상기 불용어가 제거된 문자열과 키워드를 입력받고, 상기 불용어가 제거된 문자열에 포함된 단어와, 상기 키워드 또는 소정의 장기간 동안 소정의 기준 이상으로 기존의 문자열들 상에서 키워드 별로 빈발한 단어들을 보관하는 일반 단어 사전에 포함된 상기 키워드와 연관된 일반 단어를 매칭하여, 상기 키워드 또는 상기 키워드와 연관된 일반 단어를 포함하는 문자열을 선별하되, 상기 일반 단어 사전에 포함된 단어들과 상기 문자열에 포함된 단어들 사이에 매칭된 단어들의 개수, 상기 문자열에 포함된 단어들의 빈발 정도를 나타내는 지지도들의 합산값, 및 상기 지지도들의 평균값 중 적어도 하나를 기초로 상기 키워드 또는 상기 키워드와 연관된 일반 단어를 포함하는 문자열을 선별하는 일반 단어 매칭부; 및상기 불용어가 제거된 문자열에 포함된 단어와 상기 키워드 또는 소정의 단기간 동안 소정의 기준 이상으로 상기 기존의 문자열들 상에서 키워드 별로 빈발한 단어들을 보관하는 단기간 연관 단어 사전에 포함된 상기 키워드와 연관된 단기간 연관 단어를 매칭하여, 상기 키워드 또는 상기 키워드와 연관된 단기간 연관 단어를 포함하는 문자열을 선별하는 단기간 연관 단어 매칭부를 포함하는 문자열 탐지 장치.

5

제4항에 있어서,상기 일반 단어 사전은, 상기 일반 단어 매칭부에서 선별한 문자열에 포함된 단어 중 소정의 장기간 동안 소정의 기준 이상으로 빈발하는 단어인 빈발 단어가 상기 키워드와 연관된 일반 단어로서 포함되도록 설정되어 생성된 단어 사전이고,상기 단기간 연관 단어 사전은, 상기 일반 단어 매칭부에서 선별한 문자열에서 상기 일반 단어 사전에 포함되도록 설정한 상기 키워드와 연관된 일반 단어 및 상기 키워드를 포함하는 상기 일반 단어가 제거되고, 상기 일반 단어가 제거된 문자열에 포함된 단어 중 소정의 단기간 동안 소정의 기준 이상으로 빈발하는 단어인 단기간 빈발 단어가 상기 키워드와 연관된 단기간 연관 단어로서 포함되도록 설정되어 생성된 단어 사전인 것을 특징으로 하는 문자열 탐지 장치.

6

제5항에 있어서,상기 일반 단어 매칭부에서 선별한 문자열에 포함된 단어 중 상기 소정의 장기간 동안 소정의 기준 이상으로 빈발하는 상기 빈발 단어를 추출하고, 상기 추출한 빈발 단어를 상기 키워드와 연관된 일반 단어로 상기 일반 단어 사전에 포함되도록 설정하는 일반 단어 사전 관리부; 및상기 일반 단어 매칭부에서 선별한 문자열에서 상기 일반 단어 사전에 포함되도록 설정한 상기 키워드와 연관된 일반 단어 및 상기 키워드를 포함하는 상기 일반 단어를 제거하고, 상기 일반 단어를 제거한 문자열에 포함된 단어 중 상기 소정의 단기간 동안 소정의 기준 이상으로 빈발하는 단어인 상기 단기간 빈발 단어를 추출하여, 상기 추출한 단기간 빈발 단어를 상기 키워드와 연관된 단기간 연관 단어로서 상기 단기간 연관 단어 사전에 포함되도록 설정하는 단기간 연관 단어 사전 관리부를 더 포함하는 것을 특징으로 하는 문자열 탐지 장치.

7

문자열과 키워드를 입력받고, 상기 문자열 중 상기 키워드를 포함하는 문자열을 선별하고, 상기 선별된 문자열에 포함된 단어 중 소정의 장기간 동안 소정의 기준 이상으로 빈발하는 단어인 빈발 단어를 추출하여, 상기 추출한 빈발 단어를 상기 키워드와 연관된 일반 단어로서 일반 단어 사전에 포함되도록 설정하되, 상기 일반 단어 사전에 포함된 단어들과 상기 문자열에 포함된 단어들 사이에 매칭된 단어들의 개수, 상기 문자열에 포함된 단어들의 빈발 정도를 나타내는 지지도들의 합산값, 및 상기 지지도들의 평균값 중 적어도 하나를 기초로 상기 키워드를 포함하는 문자열을 선별하는 일반 단어 사전 관리 단계; 및상기 선별된 문자열에서 상기 일반 단어 사전에 포함되도록 설정한 상기 키워드와 연관된 일반 단어 및 상기 키워드를 포함하는 상기 일반 단어를 제거하고, 상기 일반 단어를 제거한 문자열에 포함된 단어 중 소정의 단기간 동안 소정의 기준 이상으로 빈발하는 단어인 단기간 빈발 단어를 추출하여, 상기 추출한 단기간 빈발 단어를 상기 키워드와 연관된 단기간 연관 단어로서 단기간 연관 단어 사전에 포함되도록 설정하는 단기간 연관 단어 사전 관리 단계를 포함하는 키워드에 대응하는 문자열 탐지를 위한 단어 사전 생성 방법.

8

문자열과 키워드를 입력받고, 상기 입력받은 문자열에 포함된 단어와, 상기 키워드 또는 소정의 장기간 동안 소정의 기준 이상으로 기존의 문자열들 상에서 키워드 별로 빈발한 단어들을 보관하는 일반 단어 사전에 포함된 상기 키워드와 연관된 일반 단어를 매칭하여, 상기 키워드 또는 상기 키워드와 연관된 일반 단어를 포함하는 문자열을 선별하되, 상기 일반 단어 사전에 포함된 단어들과 상기 문자열에 포함된 단어들 사이에 매칭된 단어들의 개수, 상기 문자열에 포함된 단어들의 빈발 정도를 나타내는 지지도들의 합산값, 및 상기 지지도들의 평균값 중 적어도 하나를 기초로 상기 키워드 또는 상기 키워드와 연관된 일반 단어를 포함하는 문자열을 선별하는 일반 단어 매칭 단계; 및상기 입력받은 문자열에 포함된 단어와 상기 키워드 또는 소정의 단기간 동안 소정의 기준 이상으로 상기 기존의 문자열들 상에서 키워드 별로 빈발한 단어들을 보관하는 단기간 연관 단어 사전에 포함된 상기 키워드와 연관된 단기간 연관 단어를 매칭하여, 상기 키워드 또는 상기 키워드와 연관된 단기간 연관 단어를 포함하는 문자열을 선별하는 단기간 연관 단어 매칭 단계를 포함하는 문자열 탐지 방법.