BERT-Based Schema Matching for Integrating Heterogeneous Flood Data: A Case Study in Korea | 김무철 교수 연구실 | 중앙대학교 소프트웨어학부

김무철 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 0

·2026

BERT-Based Schema Matching for Integrating Heterogeneous Flood Data: A Case Study in Korea

Taeyoung Choe, Mincheol Shin, Kwangyoung Kim, Myungseok Yang, Ka Lok Man, Mucheol Kim

IF 3.1 (2026) Systems

초록

지자체 전반에 걸쳐 홍수 대응 데이터셋을 통합하는 과정은 서로 이질적이고 비표준적인 변수명으로 인해 흔히 저해되며, 한국에서는 지역 명명 관행과 언어적 변이로 인해 이러한 문제가 더욱 크게 증폭된다. 본 연구는 의미적 일관성을 유지하면서 다운스트림 모델링을 위한 수작업 부담을 줄여, 지자체 홍수 데이터셋을 표준화하기 위한 확장 가능한 스키마 정렬(scheme alignment)에 대해 다룬다. 우리는 생성형 언어 모델이 생성한 패러프레이즈를 통해 표준화된 속성명을 보강하되, 의미적 드리프트를 줄이기 위해 필터링하는 BERT 기반 스키마 매칭 프레임워크를 제안한다. 표준화된 변수명과 대상 변수명 모두 홍수 도메인에 적응한 Korean BERT 모델로 인코딩하며, 후보 대응관계는 코사인 유사도(cosine-similarity) 기반 순위화로 검색하여 자동화 또는 인간-참여(human-in-the-loop) 정렬을 위한 상위 k(k) 매칭 제안을 생성한다. 부산과 인천의 실제 홍수 관련 표를 변수 표현의 다양화를 위해 함께 평가한 실험 결과, 보강(augmentation)이 top-k 검색 정확도를 유의미하게 향상시키는 것으로 나타났다. 통합 평가에서 Hit@5는 0.71에서 0.95로 개선되어, 시뮬레이션에 바로 활용 가능한 입력을 위한 보다 신뢰할 수 있는 스키마 조화를 뒷받침한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Schema (genetic algorithms)Schema matchingScalabilityMatching (statistics)Consistency (knowledge bases)HarmonizationVariable (mathematics)

타입

article

IF / 인용수

3.1 / 0

원문

https://doi.org/10.3390/systems14030267

게재 연도

2026

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)