지자체 전반에 걸쳐 홍수 대응 데이터셋을 통합하는 과정은 서로 이질적이고 비표준적인 변수명으로 인해 흔히 저해되며, 한국에서는 지역 명명 관행과 언어적 변이로 인해 이러한 문제가 더욱 크게 증폭된다. 본 연구는 의미적 일관성을 유지하면서 다운스트림 모델링을 위한 수작업 부담을 줄여, 지자체 홍수 데이터셋을 표준화하기 위한 확장 가능한 스키마 정렬(scheme alignment)에 대해 다룬다. 우리는 생성형 언어 모델이 생성한 패러프레이즈를 통해 표준화된 속성명을 보강하되, 의미적 드리프트를 줄이기 위해 필터링하는 BERT 기반 스키마 매칭 프레임워크를 제안한다. 표준화된 변수명과 대상 변수명 모두 홍수 도메인에 적응한 Korean BERT 모델로 인코딩하며, 후보 대응관계는 코사인 유사도(cosine-similarity) 기반 순위화로 검색하여 자동화 또는 인간-참여(human-in-the-loop) 정렬을 위한 상위 k(k) 매칭 제안을 생성한다. 부산과 인천의 실제 홍수 관련 표를 변수 표현의 다양화를 위해 함께 평가한 실험 결과, 보강(augmentation)이 top-k 검색 정확도를 유의미하게 향상시키는 것으로 나타났다. 통합 평가에서 Hit@5는 0.71에서 0.95로 개선되어, 시뮬레이션에 바로 활용 가능한 입력을 위한 보다 신뢰할 수 있는 스키마 조화를 뒷받침한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.