FastText를 활용한 근사 Top-k 레이블 서브그래프 매칭 장치 및 방법
APPROXIMATE TOP-K LABELED SUBGRAPH MATCHING DEVICE AND METHOD USING FASTTEXT
특허 요약
FastText를 활용한 근사 Top-k 레이블 서브그래프 매칭 장치 및 방법이 개시된다. 본 발명의 일실시예에 따른, FastText를 활용한 근사 Top-k 레이블 서브그래프 매칭 장치는, 그래프 데이터와 관련하여 작성된 학습 모델을 이용하여 상기 그래프 데이터를 순회하면서 레이블 유사도 그래프(LSG)를 생성하는 레이블 유사도 그래프 생성 모듈; 및 질의 그래프의 입력에 따라, 상기 레이블 유사도 그래프(LSG)를 기초하여 다수의 서브그래프를 확장하고, 유사도에 기초하여 상기 다수의 서브그래프 중에서, k 개(상기 k는 2이상의 자연수)의 서브그래프를 매칭 결과로서 제공하는 질의 처리 모듈을 포함 할 수 있다.
청구항
번호청구항
1

그래프 데이터와 관련하여 작성된 학습 모델을 이용하여 상기 그래프 데이터를 순회하면서 레이블 유사도 그래프(LSG)를 생성하는 레이블 유사도 그래프 생성 모듈; 및질의 그래프의 입력에 따라,상기 레이블 유사도 그래프(LSG)에 기초하여 다수의 서브그래프를 확장하고, 유사도에 기초하여 상기 다수의 서브그래프 중에서, k 개(상기 k는 2이상의 자연수)의 서브그래프를 매칭 결과로서 제공하는 질의 처리 모듈을 포함하고,상기 레이블 유사도 그래프 생성 모듈은,상기 그래프 데이터의 정점 속성 정보로부터 말뭉치(Corpus)를 작성하고,상기 말뭉치를 분석하여, FastText에 기반한 워드 임베딩 방법으로 상기 학습 모델을 작성하는,FastText를 활용한 근사 Top-k 레이블 서브그래프 매칭 장치.

2

삭제

3

제1항에 있어서,상기 레이블 유사도 그래프 생성 모듈은,상기 학습모델에 의해, 상기 그래프 데이터를 BFS(너비 우선 탐색, Breadth First Search)하여, 상기 그래프 데이터 내 정점의 레이블을 선별하고,상기 선별된 레이블을 정점으로 하고, 레이블 간 유사도가 저장되는 간선을 포함하여, 상기 레이블 유사도 그래프(LSG)를 생성하는,FastText를 활용한 근사 Top-k 레이블 서브그래프 매칭 장치.

4

제3항에 있어서,상기 레이블 유사도 그래프 생성 모듈은,레이블 간의 상기 유사도가 정해진 임계값 보다 작으면, 상기 레이블 간을 간선으로 연결하지 않는,FastText를 활용한 근사 Top-k 레이블 서브그래프 매칭 장치.

5

제1항에 있어서,상기 질의 처리 모듈은,상기 질의 그래프에 대해 결정되는 매칭 순서에 따라, 상기 그래프 데이터로부터, 상기 질의 그래프를 구성하는 데이터 그래프에 상응하는 시작 후보 정점 집합을 추출하는 매칭 순서 모듈(Matching Order Module);상기 추출된 시간 후보 정점 집합을 기준으로, 근사 서브그래프 매칭을 수행하는 근사 매칭 모듈(Approximate Matching Module); 및상기 서브그래프 매칭의 수행에 따라 서브그래프를 확장해 나갈 때 마다 유사도를 서브그래프 매칭 결과에 함께 저장하고, 유사도가 가장 높은 k개를 서브그래프 매칭 결과로 반환하는 Top-k 관리 모듈(Top-k Manage Module)을 포함하는, FastText를 활용한 근사 Top-k 레이블 서브그래프 매칭 장치.

6

제5항에 있어서,상기 매칭 순서 모듈은,상기 질의 그래프의 상기 데이터 그래프 간의 INF를 연산하고, 연산된 상기 INF가 큰 순서대로 상기 매칭 순서를 결정하고,상기 INF는,[수식 1]을 만족하여 연산하는,- 상기 (vi, vj)는 질의 그래프의 간선을 나타내고, 상기 d(vi)와 d(vj)는 vi와 vj 정점의 차수를 나타내며, 상기 f(G, T(vi))와 f(G, T(vj))는 그래프 데이터에서 vi, vj와 동일한 유형의 수를 나타냄 -FastText를 활용한 근사 Top-k 레이블 서브그래프 매칭 장치.

7

제5항에 있어서,상기 시작 후보 정점 집합에, 상기 질의 그래프의 데이터 그래프 u1 의 레이블 A와 상응하는, 상기 그래프 데이터의 정점 v1이 포함되는 경우,상기 근사 매칭 모듈은,상기 매칭 순서에 따라, 상기 정점 v1을 시작으로, 상기 질의 그래프의 데이터 그래프 u2 의 레이블 B와 상응하는, 상기 그래프 데이터의 정점 v2를 탐색하고,상기 정점 v1과, 상기 정점 v2를 간선으로 연결하며,상기 질의 데이터의 데이터 그래프 u1-u2와 상기 그래프 데이터의 정점 v1-v2와의 레이블 또는 유형이 일치하는 정도에 따라 할당되는 유사도를, 서브그래프 (v1, v2) 와 함께 확장하는,FastText를 활용한 근사 Top-k 레이블 서브그래프 매칭 장치.

8

제7항에 있어서,상기 질의 그래프의 데이터 그래프 u2 의 레이블 B와 상응하는, 상기 그래프 데이터의 정점 v2가 탐색되지 않으면,상기 근사 매칭 모듈은,상기 레이블 유사도 그래프(LSG)로부터 상기 레이블 B와 유사한 레이블 B'와 상응하는, 상기 그래프 데이터의 정점 v2'를 탐색하는,FastText를 활용한 근사 Top-k 레이블 서브그래프 매칭 장치.

9

제8항에 있어서,상기 레이블 유사도 그래프(LSG)로부터 상기 레이블 B와 유사한 레이블 B'와 상응하는, 상기 그래프 데이터의 정점 v2'가 탐색되지 않으면,상기 근사 매칭 모듈은,상기 정점 v1와, 2-hop 인접한 정점 v3을 탐색하는,FastText를 활용한 근사 Top-k 레이블 서브그래프 매칭 장치.

10

그래프 데이터와 관련하여 작성된 학습 모델을 이용하여 상기 그래프 데이터를 순회하면서 레이블 유사도 그래프(LSG)를 생성하는 단계; 및질의 그래프의 입력에 따라,상기 레이블 유사도 그래프(LSG)에 기초하여 다수의 서브그래프를 확장하고, 유사도에 기초하여 상기 다수의 서브그래프 중에서, k 개(상기 k는 2이상의 자연수)의 서브그래프를 매칭 결과로서 제공하는 단계를 포함하고,상기 레이블 유사도 그래프(LSG)를 생성하는 단계는,상기 그래프 데이터의 정점 속성 정보로부터 말뭉치(Corpus)를 작성하는 단계; 및상기 말뭉치를 분석하여, FastText에 기반한 워드 임베딩 방법으로 상기 학습 모델을 작성하는 단계를 포함하는, FastText를 활용한 근사 Top-k 레이블 서브그래프 매칭 방법.

11

삭제

12

제10항에 있어서,상기 레이블 유사도 그래프(LSG)를 생성하는 단계는,상기 학습모델에 의해, 상기 그래프 데이터를 BFS(너비 우선 탐색, Breadth First Search)하여, 상기 그래프 데이터 내 정점의 레이블을 선별하는 단계; 및상기 선별된 레이블을 정점으로 하고, 레이블 간 유사도가 저장되는 간선을 포함하여, 상기 레이블 유사도 그래프(LSG)를 생성하는 단계를 더 포함하는, FastText를 활용한 근사 Top-k 레이블 서브그래프 매칭 방법.

13

제12항에 있어서,상기 레이블 유사도 그래프(LSG)를 생성하는 단계는,레이블 간의 상기 유사도가 정해진 임계값 보다 작으면, 상기 레이블 간을 간선으로 연결하지 않는 단계를 더 포함하는, FastText를 활용한 근사 Top-k 레이블 서브그래프 매칭 방법.

14

제10항에 있어서,상기 제공하는 단계는,상기 질의 그래프에 대해 결정되는 매칭 순서에 따라, 상기 그래프 데이터로부터, 상기 질의 그래프를 구성하는 데이터 그래프에 상응하는 시작 후보 정점 집합을 추출하는 단계;상기 추출된 시간 후보 정점 집합을 기준으로, 근사 서브그래프 매칭을 수행하는 단계; 및상기 서브그래프 매칭의 수행에 따라 서브그래프를 확장해 나갈 때 마다 유사도를 서브그래프 매칭 결과에 함께 저장하고, 유사도가 가장 높은 k개를 서브그래프 매칭 결과로 반환하는 단계를 포함하는, FastText를 활용한 근사 Top-k 레이블 서브그래프 매칭 방법.

15

제14항에 있어서,상기 제공하는 단계는,상기 질의 그래프의 상기 데이터 그래프 간의 INF를 연산하고, 연산된 상기 INF가 큰 순서대로 상기 매칭 순서를 결정하는 단계를 더 포함하고,상기 INF는,[수식 1]을 만족하여 연산하는,- 상기 (vi, vj)는 질의 그래프의 간선을 나타내고, 상기 d(vi)와 d(vj)는 vi와 vj 정점의 차수를 나타내며, 상기 f(G, T(vi))와 f(G, T(vj))는 그래프 데이터에서 vi, vj와 동일한 유형의 수를 나타냄 -FastText를 활용한 근사 Top-k 레이블 서브그래프 매칭 방법.

16

제14항에 있어서,상기 시작 후보 정점 집합에, 상기 질의 그래프의 데이터 그래프 u1 의 레이블 A와 상응하는, 상기 그래프 데이터의 정점 v1이 포함되는 경우,상기 제공하는 단계는,상기 매칭 순서에 따라, 상기 정점 v1을 시작으로, 상기 질의 그래프의 데이터 그래프 u2 의 레이블 B와 상응하는, 상기 그래프 데이터의 정점 v2를 탐색하는 단계;상기 정점 v1과, 상기 정점 v2를 간선으로 연결하는 단계; 및상기 질의 데이터의 데이터 그래프 u1-u2와 상기 그래프 데이터의 정점 v1-v2와의 레이블 또는 유형이 일치하는 정도에 따라 할당되는 유사도를, 서브그래프 (v1, v2) 와 함께 확장하는 단계를 더 포함하는, FastText를 활용한 근사 Top-k 레이블 서브그래프 매칭 방법.

17

제16항에 있어서,상기 질의 그래프의 데이터 그래프 u2 의 레이블 B와 상응하는, 상기 그래프 데이터의 정점 v2가 탐색되지 않으면,상기 제공하는 단계는,상기 레이블 유사도 그래프(LSG)로부터 상기 레이블 B와 유사한 레이블 B'와 상응하는, 상기 그래프 데이터의 정점 v2'를 탐색하는 단계를 더 포함하는, FastText를 활용한 근사 Top-k 레이블 서브그래프 매칭 방법.

18

제17항에 있어서,상기 레이블 유사도 그래프(LSG)로부터 상기 레이블 B와 유사한 레이블 B'와 상응하는, 상기 그래프 데이터의 정점 v2'가 탐색되지 않으면,상기 제공하는 단계는,상기 정점 v1와, 2-hop 인접한 정점 v3을 탐색하는 단계를 더 포함하는, FastText를 활용한 근사 Top-k 레이블 서브그래프 매칭 방법.

19

제10항, 제12항 내지 제18항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.