본 연구에서는 그래프 딥러닝을 위한 자기지도학습의 (1) 학습데이터 샘플링 고도화 (2) 그래프 데이터 고도화 (3) 학습 태스크 다양화 라는 세 가지 연구주제를 선정하였다. 본 연구를 통해 레이블링 되지 않은 대량의 그래프 데이터로부터 데이터의 지형 및 특성을 최대한 발굴해내고 이를 목표 태스크에 적응적으로 전이함으로써 그래프 딥러닝 목표 태스크 성능을 ...
그래프 데이터
자기지도학습
전이학습
데이터 샘플링
데이터 증강
다중작업학습
일관성 학습
대조 학습
2
주관|
2022년 2월-2025년 2월
|95,037,000원
그래프 딥러닝을 위한 적응적 자기지도학습 프레임워크
[연구주제1] 자기지도학습을 위한 학습데이터 샘플링 고도화 (Adaptive Graph Data Sampling)
• 자기지도학습 시 대용량 그래프 데이터 자체를 학습데이터로 사용해야 하는데, 학습 소요시간을 줄이기 위해 무작위 샘플링하여 사용하는 경우가 일반적임
• 본 연구에서는 자기지도학습 단계 및 그래프 데이터와 목표 태스크의 특성에 맞추어 적응적으로 학습데이터의 난이도를 조정함으로써 학습 효과를 극대화하기 위하여 강화학습 (reinforced learning)에 기반한 학습데이터 샘플러를 제안함
• 긍정 학습데이터와 부정 학습데이터 각각의 난이도를 적응적으로 조절하기 위하여 각 학습데이터 샘플러를 반대 방향으로 학습하여 난이도가 낮은 샘플, 난이도가 높은 샘플을 선택하도록 샘플러를 세분화함
• 링크가 부족한 데이터의 경우 무작위 링크와 top-k 링크[AMGCN20]를 추가한 후 강화학습의 학습데이터로 사용함으로써 더 우수한 강화학습 성능을 달성함을 사전실험에서 확인하였음
• 연구과제 사전검증을 위한 사전실험결과 [그림4]에 따르면, [그림3]의 두 그래프 데이터 상에서 난이도 높은 부정 학습데이터 샘플러 (hard negative data sampler)와 부정 학습데이터 생성기 (negative data generator)를 동시에 사용했을 때 적응적 학습데이터 선정 관련 최신연구인 [AGE20] 보다 성능이 더 우수함을 알 수 있음
[연구주제2] 자기지도학습을 위한 그래프 데이터 고도화 (Adaptive Graph Data Generation)
• 주어진 그래프 데이터를 학습데이터로 사용하여 자기지도학습을 수행하고 이를 목표 태스크에 전이하여 목표 태스크 성능을 향상하는 경우가 일반적임
• 본 연구에서는 전체 그래프 데이터를 학습데이터로 활용하는 것에서 나아가 그래프 데이터를 확장하고 확장된 그래프 데이터를 이용해 기존 자기지도학습 태스크의 성능을 개선하거나 새로운 자기지도학습 태스크를 수행하고 이를 목표 태크스에 전이하여 목표 태스크 성능을 좀 더 개선하는 방법을 제안함
[연구주제3] 그래프 데이터를 이용한 자기지도학습 태스크 다양화 (Auxiliary Tasks for Graph Transfer Learning)
• 목표 태스크의 보조 태스크로는 주어진 그래프 데이터 복원 태스크가 흔히 사용되나, 그래프 데이터나 목표 태스크 종류에 따라 주어진 그래프 데이터의 복원 태스크 학습 결과를 전이하면 오히려 목표 태스크의 성능이 저하되는 경우를 사전실험에서 관찰하였음
• 본 연구에서는 보조 태스크를 다양화하여 주어진 그래프의 데이터 지형 및 특성을 최대한 발굴해내어 이를 목표 태스크에 전이함으로써 목표 태스크 성능을 안정적으로 향상하는데 기여하고자 함. 이를 위해 아래 네 종류의 그래프 데이터 자기지도학습 태스크를 선정하였으며 이들의 전이 효과를 다양한 그래프 데이터와 목표 태스크를 사용하여 실험하고 보조 태스크 간 상호관계를 분석하고자 함
• 사전실험결과인 [그림5]에서 세 가지의 그래프 전이학습 최신연구결과를 일반 그래프 합성곱 신경망 결과와 비교하였음. 그래프 증강 후 일관성 학습[NodeAug20], 주어진 그래프 데이터 복원 태스크로 사전학습 후 미세조정[GPTGNN20], 주어진 그래프 데이터 복원 태스크로 적응적 전이학습[AUXTS21], 이 세 방법 모두 [그림3]의 두 그래프 데이터셋에서 일관되게 목표 태스크인 노드 분류의 정확도를 향상함을 확인하였으나 셋 중 뚜렷한 우세를 보이는 방법을 선택할 수는 없는 상황임
제안하는 빅데이터 분석 프레임워크는 아래 4개의 단계로 구성되며 각 단계의 주요 연구 내용은 다음과 같음
[1단계] 데이터 특성 파악 & 데이터 표현형 생성
1) Clustering Engine과 Feature Interaction Analyzer는 전체 데이터로부터 데이터 구조와 데이터 특징 간 연관관계를 분석하며 Representation Learner는 이를 활용하여 고품질의 데이터 표현형을 생성함
2) Clustering Engine은 다양한 군집 간 분리도 (Cluster Separability) 분석 기능을 포함하여 하며 LSH (Locality-Sensitive Hashing) 기반 샘플링 기법 [BCWS] 을 이용하여 차원 축소 후 군집화함으로써 반복되는 군집화의 시간 비용을 절약하고자 함
3) Feature Interaction Analyzer와 Representation Learner는 FM (Factorization Machine)과 신경망을 결합한 Neural FM 구조를 기반으로 함. 두 부분이 통합되어 동시에 학습될 수도 있음
4) Feature Interaction Analyzer에서 2018년 Amazon에서 제안한 것처럼 다양한 고차특징 (High-order Feature)을 생성한 후 이를 분석하여 표현형 학습에 사용하는 방식도 고려함
[2단계] 목적함수 구성 & 지식 활용
1) Objective Function Generator는 1단계에서 학습한 데이터 구조, 데이터 특징 간 연관관계 및 데이터 표현형을 통합적으로 활용하여 목적함수를 구성함
2) Knowledge-aware DNNs는 다양한 신경망을 결합하여 구성할 계획인데 기본적으로는GAN과 다중작업학습(MTL)에 기반한 신경망 구조를 사용함. 비지도학습이 아니라 가용 빅데이터 전체를 사용한 준지도학습을 시행하며 관련 도메인의 다른 빅데이터와 여러 목적함수들을 이용하여 동시 학습을 진행함으로써 더 강건한 (Robust) 데이터 표현형으로 개선하고 이에 바탕 하여 고품질의 딥러닝을 수행하고자 함
3) 이 때, 주어진 빅데이터를 위한 다중작업학습(MTL)을 실행하기 위하여 다양한 도메인의 빅데이터 및 메타데이터를 이미 보유하고 있다고 가정함
4) Knowledge-aware DNNs 내에 패턴 추출을 위한 지식을 학습하기 위하여 주의집중 신경망 (Attention Network)을 포함하고자 하며, 이는 주어진 데이터의 주요 특성에 해당하는 선택적 주의집중 정도를 학습하게 됨
[3단계] 데이터 탐색 & 지식 추출
1) Knowledge Explorer는 데이터 분석을 통한 지식 추출을 원하는 사용자에게 데이터 분석의 결과 도출된 지식 (주요패턴, 유사도, 새로운 군집 정보 등)을 제공하는 부분으로, 사용자는 Knowledge Explorer를 통해 이를 탐색하고 주요 지식을 추출하는 활동을 함
2) Knowledge Explorer는 1단계와 2단계의 중간/최종 결과물들 (군집 정보, 특징 간 상호작용 정보, Knowledge-aware DNNs 내 정보 등)을 통합적으로 활용하여 지식을 도출하여야 하는데, Knowledge Explorer를 위한 알고리즘이 전체 데이터 분석 프레임워크 가운데 가장 연구 난이도가 높을 것으로 예상됨
[4단계] 지식 추출 및 활용의 선순환
1) Knowledge Explorer를 통해 추출한 사용자가 추출한 신규 지식을 전체 분석 프레임워크에 반영할 때 이러한 작업이 반복될 수 있으므로 프레임워크 내 모든 부분이 점진적으로 개선되도록 각 알고리즘의 효율성을 향상해야 함
2) 추출된 지식의 활용을 통하여 예측정확도의 추가 향상과 더 고품질의 지식 추출이 동시에 가능해야 함
제안하는 빅데이터 분석 프레임워크는 아래 4개의 단계로 구성되며 각 단계의 주요 연구 내용은 다음과 같음
[1단계] 데이터 특성 파악 & 데이터 표현형 생성
1) Clustering Engine과 Feature Interaction Analyzer는 전체 데이터로부터 데이터 구조와 데이터 특징 간 연관관계를 분석하며 Representation Learner는 이를 활용하여 고품질의 데이터 표현형을 생성함
2) Clustering Engine은 다양한 군집 간 분리도 (Cluster Separability) 분석 기능을 포함하여 하며 LSH (Locality-Sensitive Hashing) 기반 샘플링 기법 [BCWS] 을 이용하여 차원 축소 후 군집화함으로써 반복되는 군집화의 시간 비용을 절약하고자 함
3) Feature Interaction Analyzer와 Representation Learner는 FM (Factorization Machine)과 신경망을 결합한 Neural FM 구조를 기반으로 함. 두 부분이 통합되어 동시에 학습될 수도 있음
4) Feature Interaction Analyzer에서 2018년 Amazon에서 제안한 것처럼 다양한 고차특징 (High-order Feature)을 생성한 후 이를 분석하여 표현형 학습에 사용하는 방식도 고려함
[2단계] 목적함수 구성 & 지식 활용
1) Objective Function Generator는 1단계에서 학습한 데이터 구조, 데이터 특징 간 연관관계 및 데이터 표현형을 통합적으로 활용하여 목적함수를 구성함
2) Knowledge-aware DNNs는 다양한 신경망을 결합하여 구성할 계획인데 기본적으로는GAN과 다중작업학습(MTL)에 기반한 신경망 구조를 사용함. 비지도학습이 아니라 가용 빅데이터 전체를 사용한 준지도학습을 시행하며 관련 도메인의 다른 빅데이터와 여러 목적함수들을 이용하여 동시 학습을 진행함으로써 더 강건한 (Robust) 데이터 표현형으로 개선하고 이에 바탕 하여 고품질의 딥러닝을 수행하고자 함
3) 이 때, 주어진 빅데이터를 위한 다중작업학습(MTL)을 실행하기 위하여 다양한 도메인의 빅데이터 및 메타데이터를 이미 보유하고 있다고 가정함
4) Knowledge-aware DNNs 내에 패턴 추출을 위한 지식을 학습하기 위하여 주의집중 신경망 (Attention Network)을 포함하고자 하며, 이는 주어진 데이터의 주요 특성에 해당하는 선택적 주의집중 정도를 학습하게 됨
[3단계] 데이터 탐색 & 지식 추출
1) Knowledge Explorer는 데이터 분석을 통한 지식 추출을 원하는 사용자에게 데이터 분석의 결과 도출된 지식 (주요패턴, 유사도, 새로운 군집 정보 등)을 제공하는 부분으로, 사용자는 Knowledge Explorer를 통해 이를 탐색하고 주요 지식을 추출하는 활동을 함
2) Knowledge Explorer는 1단계와 2단계의 중간/최종 결과물들 (군집 정보, 특징 간 상호작용 정보, Knowledge-aware DNNs 내 정보 등)을 통합적으로 활용하여 지식을 도출하여야 하는데, Knowledge Explorer를 위한 알고리즘이 전체 데이터 분석 프레임워크 가운데 가장 연구 난이도가 높을 것으로 예상됨
[4단계] 지식 추출 및 활용의 선순환
1) Knowledge Explorer를 통해 추출한 사용자가 추출한 신규 지식을 전체 분석 프레임워크에 반영할 때 이러한 작업이 반복될 수 있으므로 프레임워크 내 모든 부분이 점진적으로 개선되도록 각 알고리즘의 효율성을 향상해야 함
2) 추출된 지식의 활용을 통하여 예측정확도의 추가 향상과 더 고품질의 지식 추출이 동시에 가능해야 함
기존 시계열 분석 알고리즘들의 분석정확도는 대체로 만족스럽지 못한 수준인데, 본 연구에서는 다음 세 가지 시계열 빅데이터 주요특징을 주목하여 이들을 충실히 반영함으로써 분석정확도를 높이고자 한다.
(i) 여러 시계열 데이터가 상호영향을 주고 받는 경우, 이런 시계열 그룹을 동적으로 파악하여 주변상황(context)으로 보고 통합분석하면 분석정확도가 향상된다.
(ii) 시계열 데이터는 다양한 표현형으로 변형될 수 있는데, 특정 시계열 표현형에서는 드러나지 않던 예측패턴이 다른 시계열 표현형 상에서는 드러날 수 있다.
(iii) 시계열 데이터는 시간이 지남에 따라 점차 변화하는 경우가 많으므로, 이에 지속적으로 적응하지 못하면 분석정확도가 저하된다.
그러나, 이러한 시계열 데이터의 통합 분석은 고품질의 분석결과를 생성하고 동시에 변화하는 시계열 데이터에 적응하기 위하여 크게 확장된 문제공간을 유지하면서 탐색해야 한다. 따라서, 본 연구에서 개발할 패턴 탐색 프레임워크를 구성하는 새로운 인덱싱 및 해싱 구조와 유사탐색 및 패턴발굴 알고리즘들은 기존 방식들의 비해 현저히 개선된 효율성을 달성할 수 있어야 한다. 이를 위해 본 연구에서는 (1) 수많은 패턴후보들의 구조 및 통계정보를 효율적으로 저장하고 자동진화하는 트리기반 시계열 패턴후보 인덱싱 기법과 (2) 동적 시계열 데이터 그룹에 기반한 상황인지(context-aware) 시계열 패턴 유사검색(similarity search)을 효율적으로 지원하기 위한 적응형(adaptive) 근접도 인지 해싱(locality sensitive hashing) 기법 그리고, (3) 탐색공간 가지치기(pruning)를 사용하는 효율적인 자동진화형 탐색 프레임워크를 개발한다.