주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
article
|
인용수 0
·
2025Data Augmentation Framework Based on Homogeneous Node Relationships in Heterogeneous Graphs for Recommender Systems
Jin-Soo Ahn, Jaesoo Yoo, Dojin Choi
The Journal of the Korea Contents Association
정보통신기술의 발달로 많은 양의 콘텐츠가 생성된다. 유저는 수많은 콘텐츠 속에서 자신에게 필요한 콘텐츠를 선별하는 작업이 수반된다. 이러한 문제를 해결하기 위해 추천 시스템이 활발하게 연구되고 있다. 본 논문에서는 유저-아이템 정보를 활용하여 이종 그래프를 구성한다. 기존 이종 그래프 기반 추천 시스템은 동종 노드(사용자-사용자, 아이템-아이템) 간의 관계 정보가 누락되어 추천 성능이 저하되는 한계가 있다. 본 논문에서는 이러한 문제를 해결하기 위해 그래프 신경망(GNN) 기반 추천 시스템과 그래프 데이터 증강을 활용한 프레임워크를 제안한다. 최신 오픈소스 딥러닝 모델을 활용하여 그래프 속성 증강을 수행한다. 개인화된 추천을 위해 5가지의 유사도 값을 정의하고 해당 유사도 값을 이용하여 동종 노드 간 누락된 엣지 증강을 수행한다. LSH(Locality-Sensitive Hashing) 알고리즘을 도입하여 대규모 그래프에서의 유사도 계산을 최적화하였다. 실험 결과 기존 GCN 방식 대비 약 20%의 성능 향상을 보였으며를 통해 동종 노드 간 관계 정보의 중요성을 입증하였다.
https://doi.org/10.5392/jkca.2025.25.01.001
Homogeneous
Recommender system
Node (physics)
Computer science
Data science
Information retrieval
Mathematics
Combinatorics
Engineering
2
article
|
인용수 3
·
2023k-NN Query Optimization for High-Dimensional Index Using Machine Learning
Dojin Choi, Jiwon Wee, Sangho Song, Hyeonbyeong Lee, Jongtae Lim, Kyoungsoo Bok, Jaesoo Yoo
IF 2.6 (2023)
Electronics
본 연구에서는 콘텐츠 기반 이미지 검색을 가속하기 위한 분산(in-memory) 기반 고차원 인덱싱 방법에 대해 3가지 k-최근접 이웃(k-NN) 최적화 기법을 제안한다. 제안된 기법들은 데이터 분포를 사용해 k-NN 최적화를 수행하는 밀도 기반 최적화 기법, 질의 처리 비용 통계를 활용하는 비용 기반 최적화 기법, 그리고 질의 로그를 기반으로 한 딥러닝 모델을 사용하는 학습 기반 최적화 기법으로서, 분산된 메모리 내 고차원 인덱싱을 통한 k-NN 질의 최적화를 수행한다. 제안 기법들은 대규모 분산 처리를 위한 master/slave 모델을 지원하는 Spark에 구현하였다. 또한 고차원 데이터에 기반하여 다양한 성능 평가를 통해 제안 기법들의 우수성과 타당성을 입증하였다.
https://doi.org/10.3390/electronics12112375
Computer science
Search engine indexing
SPARK (programming language)
Query optimization
Data mining
Optimization problem
Artificial intelligence
Algorithm
3
article
|
인용수 0
·
2023Efficient continuous subgraph matching scheme considering data reuse
Dojin Choi, Hyeonbyeong Lee, Jongtae Lim, Kyoungsoo Bok, Jaesoo Yoo
IF 7.2 (2023)
Knowledge-Based Systems
다양한 응용에서 그래프 스트림의 활용이 증가함에 따라, 실시간으로 변화하는 부분그래프를 탐색하기 위한 연속 부분그래프 매칭 연속(continuous) 방식이 요구된다. 본 논문에서는 그래프 스트림 환경에서 색인(indexing)을 활용하고 분산 처리를 적용하는 새롭고 효과적인 연속 부분그래프 매칭 방식을 제안한다. 분산 처리를 달성하기 위해, 노드의 차수(degree)에 기반한 질의 그래프 분해 정책을 사용하여 분해된 하위 질의들을 색인으로 관리한다. 색인 정보를 재사용함으로써, 다수의 질의가 동시에 발행되는 상황에서 핵심이 되는 색인 부하를 크게 감소시킨다. 분산 환경에서의 질의 할당을 최적화하기 위해, 각 서버에 대한 색인 부하를 정확히 계산하는 비용 모델(cost model)을 도입한다. 이를 통해 질의의 균형 잡힌 분배를 보장하여 전체 시스템 성능을 향상시킨다. 스트림 환경에서 분산 처리를 효율적으로 수행하기 위해, 제안된 방식은 Storm에 구현된다. 제안된 방식의 우수성을 입증하기 위해 다양한 성능 평가를 수행한다.
https://doi.org/10.1016/j.knosys.2023.111120
Reuse
Scheme (mathematics)
Matching (statistics)
Computer science
Algorithm
Mathematics
Data mining
Statistics
Engineering
Waste management
4
article
|
인용수 1
·
2023Efficient Continuous Subgraph Matching Scheme Based on Trie Indexing for Graph Stream Processing
Dojin Choi, Somin Lee, Sanghyeuk Kim, Hyeonbyeong Lee, Jongtae Lim, Kyoungsoo Bok, Jaesoo Yoo
IF 2.5 (2023)
Applied Sciences
빅 데이터와 인공지능 기술의 적용 범위가 확대됨에 따라 그래프 데이터는 객체 간의 관계를 분석하기 위해 점점 더 많이 활용되고 있다. 네트워크 기술의 발전과 소셜 네트워크 서비스의 확산으로 인해, 실시간으로 생성되는 대규모 그래프 스트림을 처리할 수 있는 연속 질의 처리 알고리즘에 대한 필요성이 증가하고 있다. 본 논문에서는 그래프 스트림을 효율적으로 제어하기 위한 슬라이딩 윈도우 기반 연속 부분그래프 매칭 알고리즘을 제안한다. 제안된 방식은 트라이(trie) 인덱싱에 기반한 질의 처리 기법을 사용한다. 유사한 질의의 물질화된 뷰(materialized view)에 기반한 인덱스를 구성하고, 물질화된 뷰에 기초하여 연속 질의 처리를 수행함으로써 연속 질의 처리의 효율성을 확보한다. 또한 다양한 질의 유형을 고려하기 위해 정점과 간선에 대한 와일드카드 연산을 제공한다. 더불어 본 연구에서는 물질화된 뷰 형태로 중간 질의 결과를 처리하기 위해, 향후 사용될 수 있는 부분그래프와 자주 사용되는 부분그래프를 관리할 수 있는 2단계 캐시 기법을 개발한다. 개발된 캐시 기법의 성능을 향상시키기 위해 통계 데이터를 기반으로 한 캐시 교체 기법 또한 제시한다. 제안된 알고리즘의 우수한 성능은 독립적 성능 평가 및 비교 성능 평가를 수행함으로써 검증되었다.
https://doi.org/10.3390/app13085137
Computer science
Search engine indexing
Trie
Cache
Data mining
Theoretical computer science
Information retrieval
Data structure
Parallel computing
5
article
|
인용수 5
·
2023Name Disambiguation Scheme Based on Heterogeneous Academic Sites
Dojin Choi, Jun-Hyeok Jang, Sangho Song, Hyeonbyeong Lee, Jongtae Lim, Kyoungsoo Bok, Jaesoo Yoo
IF 2.5 (2023)
Applied Sciences
학술 연구자들은 다양한 학술 사이트에서 논문, 특허, 연구 보고서와 같은 여러 형식으로 연구 성과를 발표한다. 특정 연구자의 저작을 검색할 때에는, 특히 동일한 이름을 가진 복수의 연구자가 존재하는 경우, 올바른 개인을 정확히 특정하기가 어려울 수 있다. 이러한 문제를 해결하기 위해 본 연구에서는 서로 다른 학술 사이트에 기반하여 동일 이름을 가진 연구자를 대상으로 하는 이름 식별(명칭 분리) 방식을 제안한다. 제안된 방식은 식별에 핵심적인 속성을 중심으로, 다양한 학술 사이트로부터 해당 연구 성과를 수집하고 통합한다. 이후 군집화 기법을 사용하여 동일 이름을 공유하는 개인들을 식별한다. 또한 본 연구에서는 제안된 규칙 기반 알고리즘 이름 식별 방법과 기존의 딥러닝 기반 식별 방법을 함께 구현한다. 이 접근법은 다중 분류기(multi-classifier) 방식으로 학술 사이트에 이용 가능한 메타데이터를 고려하여 가장 정확한 식별 방식을 선택할 수 있게 한다. 우리는 다양한 연구자들의 성과와 여러 학술 검색 사이트에 등록된 논문의 메타데이터를 고려하였다. 제안된 방식은 F1-measure 값 0.99의 매우 높은 성능을 보였다. 본 논문에서는 입력된 메타데이터에 따라 가장 적절한 식별 방식을 수행하는 다중 분류기(multi-classifier)를 제안한다. 제안된 다중 분류기는 F1-measure 값 0.67의 높은 성능을 보였다.
https://doi.org/10.3390/app14010192
Computer science
Metadata
Classifier (UML)
Publication
Scheme (mathematics)
Cluster analysis
Information retrieval
Data mining
Artificial intelligence
World Wide Web