RnDCircle Logo
한욱신 연구실
포항공과대학교 인공지능대학원 한욱신 교수
Cardinality Estimation
Learned Query Optimization
Subgraph Matching
연구 영역
기본 정보
논문·특허
과제
구성원

한욱신 연구실

포항공과대학교 인공지능대학원 한욱신 교수

한욱신 연구실은 데이터베이스와 그래프 질의 처리에서 카디널리티 추정, 부분그래프 매칭, 질의 실행 엔진을 핵심 기술로 수행합니다. 특히 autoregressive model 기반 통계 추정과 sampling 및 multi-dimensional statistics merging을 결합해 join과 부분그래프에 대한 비용 산정 근거를 강화합니다. 그래프 매칭에서는 static·dynamic equivalence와 temporal pruning을 사용하여 연속 질의 성능을 개선하는 알고리즘을 개발합니다. 또한 GPU-가속 관계형 질의 실행에서 부하 불균형을 줄이는 워프 수준 제어, JSON 스키마를 bottom-up으로 탐색하는 ReCG, schema graph 기반 LLM-지식그래프 검색 정제를 함께 연구하여 스키마·실행·추정이 연결된 질의 처리 체계를 구축합니다.

Cardinality EstimationLearned Query OptimizationSubgraph MatchingGPU Query ExecutionSampling
대표 연구 분야
연구 영역 전체보기
학습 기반 카디널리티 추정과 조인 샘플링을 위한 질의 최적화 연구 thumbnail
학습 기반 카디널리티 추정과 조인 샘플링을 위한 질의 최적화 연구
Learned Cardinality Estimation and Join Sampling for Query Optimization
연구 분야 상세보기
연구 성과 추이
표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

5개년 연도별 논문 게재 수

32총합

5개년 연도별 피인용 수

438총합
주요 논문
5
논문 전체보기
1
Article
|
인용수 0
·
2025
SAFE: Schema-Driven Approximate Distance Join for Efficient Knowledge Graph Querying
S.H. Lee, Sungho Park, Wook-Shin Han
대규모 언어 모델(LLMs)에서 환각을 줄이기 위해, 연구자들은 LLM을 외부 지식 그래프(KG)와 통합하는 추론 방법에 대해 점점 더 많은 연구를 수행하고 있다.기존 접근법은 LLM이 생성한 질의 그래프를 KG에 매핑하거나, LLM이 전체 그래프를 순회하도록 하는 방식 중 하나에 해당한다. 전자는 노이즈가 포함된 질의 그래프가 검색을 방해한다는 점에서 취약한 반면, 후자는 대규모 그래프에 대한 엔터티 수준 추론을 수행해야 하므로 비효율적이다.이러한 문제를 해결하기 위해, 우리는 지식 그래프 질의를 효율적으로 수행하기 위한 스키마 그래프 기반 근사 거리 조인(SAFE, Schema-Driven Approximate Distance Join)을 제안한다. 이 프레임워크는 견고한 질의 그래프 생성을 위해 스키마 그래프를 활용하고, KG 검색을 효율적으로 수행한다.SAFE는 두 가지 핵심 아이디어를 도입한다.(1) LLM이 생성한 의사 질의 그래프(pseudo query graphs)를 KG의 구조에 유연하게 정렬함으로써 정제하는 근사 거리 조인(ADJ, Approximate Distance Join) 알고리즘, 그리고 (2) 간결한 스키마 그래프를 활용하여 ADJ를 효율적으로 수행함으로써 오버헤드를 줄이고 검색 정확도를 향상시키는 접근이다. WebQSP, CWQ, GrailQA에 대한 광범위한 실험 결과, SAFE는 정확도와 효율성 모두에서 최신 기술 수준의 방법을 능가하며, LLM 기반 지식 검색이 지니는 본질적 한계를 극복하기 위한 견고하고 확장 가능한 해결책을 제공하는 것으로 나타났다.
https://doi.org/10.18653/v1/2025.emnlp-main.883
Join (topology)
Graph
Knowledge graph
Knowledge representation and reasoning
Graph theory
2
Article
|
·
인용수 8
·
2024
Cardinality Estimation of Subgraph Matching: A Filtering-Sampling Approach
Wonseok Shin, Siwoo Song, Kunsoo Park, Wook-Shin Han
IF 3.3 (2024)
Proceedings of the VLDB Endowment
부분그래프 카운팅은 그래프 구조화 데이터의 이해와 분석에 있어 근본적인 문제이지만, 계산적으로 매우 어렵다. 이에 따라 질의 그래프의 모든 동형 임베딩(isomorphic embeddings) 개수를 데이터 그래프에서 추정하는 부분그래프 차수(Subgraph Cardinality Estimation)를 위한 정확하고 효율적인 알고리즘이 요구된다. 우리는 (1) 표본 공간(sample space)을 크게 줄이기 위한 강력한 필터링 기법, (2) 정확하고 효율적인 추정을 위한 적응형 트리 샘플링(adaptive tree sampling) 알고리즘, (3) 어려운 인스턴스에 대한 최악의 경우(worst-case) 최적화된 층화 그래프 샘플링(stratified graph sampling) 알고리즘을 결합한 새로운 알고리즘 FaST est 를 제안한다. 실제 세계 데이터셋에 대한 광범위한 실험 결과, FaST est 는 정확도 측면에서 기존의 샘플링 기반 최신 방법을 최대 2자릿수(orders of magnitude)까지, 그리고 GNN 기반 방법을 최대 3자릿수까지 능가하는 것으로 나타났다.
https://doi.org/10.14778/3654621.3654635
Graph
Cardinality (data modeling)
Algorithm
Sampling (signal processing)
Computer science
Adaptive sampling
Matching (statistics)
Mathematics
Filter (signal processing)
Theoretical computer science
3
Article
|
·
인용수 2
·
2024
ReCG: Bottom-up JSON Schema Discovery Using a Repetitive Cluster-and-Generalize Framework
Joohyung Yun, Byungchul Tak, Wook-Shin Han
IF 3.3 (2024)
Proceedings of the VLDB Endowment
JSON 표현 형식의 주요 장점 중 하나인 스키마리스(schemalessness)는, 쿼리 최적화, 인덱싱 또는 데이터 검증과 같은 다양한 핵심 기능을 배제함으로써 검색 및 연산에서 높은 대가를 수반한다. JSON 문서의 묶음으로부터 정확한 JSON 스키마 발견 알고리즘을 개발하기 위한 노력이 지속되어 왔다. 그러나 기존 스키마 발견 기법들은 상향식이 아닌 하향식(top-down) 알고리즘에 기반하고 있어, JSON 트리의 자식 노드에 대한 가시성이 부족하다는 문제에 직면한다. 하위 수준의 JSON 요소에 대한 정보가 부재한 경우, 하향식 알고리즘은 노드의 스키마 유형을 결정하기 위해 가정과 휴리스틱을 활용해야 한다. 하지만 이러한 정적 결정은 데이터셋에서 종종 위반되며, 그 결과 하향식 알고리즘의 성능이 저하된다. 이를 극복하기 위해 우리는 JSON 문서를 하향식이 아닌 하향(bottom-up) 방식으로 처리하는 ReCG라는 알고리즘을 제안한다. 이 알고리즘은 JSON 문서 트리에서 리프(leaf) 요소로부터 위로 스키마를 구축함으로써, 스키마 노드 유형에 대해 보다 정보에 기반한 결정을 내릴 수 있다. 또한 스키마를 구축하는 과정에서 MDL(최소 기술 길이, Minimum Description Length) 원칙을 체계적으로 적용하여, 후보 스키마들 중 일반성(generality)은 적절히 균형을 이루면서도 가장 간결하면서도 정확한 스키마를 선택한다. 평가는, 제안 기법이 발견된 스키마의 재현율과 정밀도를 최대 47%까지 향상시키며, 그로 인해 F1 점수가 46% 더 개선되는 동시에 최신 기술 대비 평균 2.11배 더 빠른 성능을 보임을 나타낸다.
https://doi.org/10.14778/3681954.3682019
JSON
Computer science
Schema (genetic algorithms)
Data structure
Information retrieval
Data mining
Theoretical computer science
Programming language
최신 정부 과제
29
과제 전체보기
1
2025년 2월-2030년 2월
|282,526,000
멀티모달 데이터에 대한 분석 및 추론을 지원하는 AI 데이터베이스 시스템 개발
본 연구에서는 멀티모달 데이터에 대해 정확하고 효율적으로 분석과 추론이 가능한 AI 데이터베이스 시스템을 개발하는 것을 목표로 한다. 멀티모달 데이터는 그래프로 변환하여 표현 될 수 있는데, 이는 그래프 데이터베이스로 구현되는 분석 엔진과 LLM으로 구현되는 추론 엔진을 잇는 가교 역할을 한다. 유저가 자연어 질의를 요청했을 때 시스템은 질의 컴파일러를 통...
멀티모달
그래프 데이터베이스 시스템
분석과 추론
대규모 언어 모델
AI 데이터베이스 시스템
2
2024년 7월-2028년 12월
|1,540,000,000
AI Guardians: 강건하고 통제가능하며 편향 없는 신뢰 AI 기술 개발
본 과제의 최종 목표는 강건하고 통제 가능하며 편향 없는 신뢰 AI 기술을 개발하는 것이다. 이를 위해 세 가지 주요 연구 방향을 설정하였다: 첫째, 강건하고 통제 가능한 신뢰 AI 개발을 통해 예측 가능하고 안정적인 시스템 구축, 둘째, AI의 편향성을 최소화하여 공정성을 강화하는 신뢰 AI 기술 개발, 셋째, 국제 협의체 구축과 데이터 합성 방법론을 통...
신뢰 AI
설명가능 AI
거대 언어 모델
편향성 안화
AI 법률 정책
3
2024년 7월-2027년 4월
|375,000,000
고신뢰성 개인형 온디바이스 거대 행동 모델 및 가속 시스템 통합 개발
본 과제에서는 초거대 언어 모델의 차세대 확장 중 하나로 고려되는 거대 행동 모델을 분석하고 이를 바탕으로 고신뢰성 개인향 온디바이스 멀티홉 질의응답 모델 및 가속 시스템을 종합적으로 개발하는 것을 목표로 한다. 거대 행동 모델 (Large action model, LAM)은 초거대 언어 모델의 단순 문장 생성 동작에서 더 나아가 사용자의 질의에 맞는 동...
초거대 언어 모델
거대 행동 모델
메모리 내장 연산
메모리 기반 가속기
양자화
최신 특허
특허 전체보기
상태출원연도과제명출원번호상세정보
공개2024그래프 데이터베이스의 질의를 최적화하는 방법 및 장치, 이를 포함하는 그래프 데이터베이스 시스템1020240140519
공개2024로그 데이터의 이상 탐지 방법 및 그 장치1020240118853
공개2024데이터베이스 성능 모니터링과 튜닝을 위한 주피터 노트북 기반 실험 데이터 분석 프레임워크 장치 및 방법1020240067748
전체 특허

그래프 데이터베이스의 질의를 최적화하는 방법 및 장치, 이를 포함하는 그래프 데이터베이스 시스템

상태
공개
출원연도
2024
출원번호
1020240140519

로그 데이터의 이상 탐지 방법 및 그 장치

상태
공개
출원연도
2024
출원번호
1020240118853

데이터베이스 성능 모니터링과 튜닝을 위한 주피터 노트북 기반 실험 데이터 분석 프레임워크 장치 및 방법

상태
공개
출원연도
2024
출원번호
1020240067748