그래프·언어모델 기반 데이터 큐레이션 및 표준화 연구

Graph and Language-Model Based Data Curation and Standardization

연구 내용

그래프 신경망과 한국어 언어모델을 활용해 이종 데이터의 의미를 정렬하고 필터버블을 완화하는 연구

속성 정보가 불완전하거나 결측인 비속성 그래프에서 샘플링 편향을 완화하는 WalkGCN을 통해 인공 노드 속성을 생성하고, 이를 그래프 컨볼루션 기반 분류 모델에 연결합니다. 한국어에 특화된 형태소 기반 사전학습 모델 KRongBERT로 OOV 문제를 줄이고 의미 이해 성능을 확보합니다. 또한 재난 데이터의 이질적 변수명을 표준화하기 위해 flood 도메인 적응 Korean BERT와 생성 기반 패러프레이즈를 결합한 스키마 매칭을 수행합니다. 데이터 큐레이션 관점에서는 그래프 분석으로 필터버블을 완화하는 모델을 개발합니다.

관련 프로젝트

2건

연구 흐름

초기에는 그래프 데이터에서 속성 결측 문제를 다루기 위해 랜덤 워크 기반 생성 절차에서 발생하는 차수 편향을 교정하는 샘플링 전략을 제안하고, 노드 임베딩을 인공 속성으로 활용하는 방향으로 연구를 수행했습니다. 이후 한국어 형태적 특성을 고려한 형태소 기반 언어모델로 토크나이징과 임베딩 설계를 강화했습니다. 동시에 재난·침수 데이터의 이질적 스키마를 의미 일관성 있게 정렬하기 위해 BERT 기반 스키마 매칭 프레임워크를 확장했습니다. 최근에는 리트리벌 증강 추천의 의미 설계 공간을 체계적으로 정리하여, 데이터 큐레이션과 표준화 전략의 연결 지점을 도출하고 있습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

비속성 그래프 분류
샘플링 편향 보정
한국어 토크나이저 설계
도메인 적응 언어모델
이종 스키마 매칭
자동 표준화 제안
필터버블 완화 큐레이션
재난 데이터 정합성 검증
리트리벌 기반 추천 설계
데이터 의미 드리프트 완화