스팸 정보의 판정 방법
Method of Determining a SPAM Information
특허 요약
이 발명은 네트워크로부터 수신하는 스팸 정보의 판정 방법에 관한 것으로서, 정보 기기가 네트워크로부터 수신하는 정보 중의 이미지로부터 광학적 문자 인식을 통하여 문자를 추출하는 문자 추출 단계, 정보 기기가 문자 추출 단계에서 추출된 문자 중에서 주제어를 추출하는 주제어 추출 단계, 정보 기기가 주제어 추출 단계에서 추출된 단어를 벡터로 변환하는 제1 벡터 변환 단계, 문자 추출 단계에서 추출된 문자로 구성되는 문장을 미리 입력된 인덱스 값 목록과 대비하여 특징 벡터를 추출하는 제2 벡터 변환 단계, 정보 기기가 네트워크로부터 수신하는 정보 중의 이미지로부터 이미지의 특징을 추출하고 당해 특징에 상응하는 벡터로 변환하는 제3 벡터 변환 단계, 및 정보 기기가 제1 내지 제3 벡터 변환 단계에서 변환된 각각의 벡터를 분류하여 스팸 여부를 판정하는 단계를 포함하는 것이다.
청구항
번호청구항
1

네트워크로부터 수신하는 스팸 정보의 판정 방법으로서, 정보 기기가 네트워크로부터 수신하는 정보 중의 이미지로부터 광학적 문자 인식을 통하여 문자를 추출하는 문자 추출 단계,정보 기기가 문자 추출 단계에서 추출된 문자 중에서 주제어를 추출하는 주제어 추출 단계,정보 기기가 주제어 추출 단계에서 추출된 단어를 벡터로 변환하는 제1 벡터 변환 단계,문자 추출 단계에서 추출된 문자로 구성되는 문장을 미리 입력된 인덱스 값 목록과 대비하여 특징 벡터를 추출하는 제2 벡터 변환 단계, 정보 기기가 네트워크로부터 수신하는 정보 중의 이미지로부터 이미지의 특징을 추출하고 당해 특징에 상응하는 벡터로 변환하는 제3 벡터 변환 단계,정보 기기가 제1 내지 제3 벡터 변환 단계에서 변환된 각각의 벡터를 분류하여 스팸 여부를 판정하는 단계를 포함하는 것인, 스팸 정보의 판정 방법.

2

청구항 1에 있어서,상기 주제어 추출 단계에서는 잠재 디리클레 할당을 기반으로 한 확률적 주제어 모델을 사용하여 텍스트에서 주제어를 추출하고, 추출된 단어가 미리 마련된 단어 목록에 존재하면 추출된 단어를 주제어로서 추출하는 것인, 스팸 정보의 판정 방법.

3

청구항 1에 있어서, 상기 제3 벡터 변환 단계에서는, 정보 기기가 네트워크로부터 수신하는 정보 중의 이미지로부터 컨볼루션 뉴럴 네트워크 기법에 따라 이미지의 특징을 추출하고 당해 특징에 상응하는 특징 맵을 형성하고 평면화 프로세서에 의해 1차원 벡터로 변환하는 것인, 스팸 정보의 판정 방법.

4

청구항 3에 있어서, 상기 제3 벡터 변환 단계에서는, 추출된 이미지의 특징을 미리 정해진 크기의 이미지로 변환하는 것인, 스팸 정보의 판정 방법.