JSON 표현 형식의 주요 장점 중 하나인 스키마리스(schemalessness)는, 쿼리 최적화, 인덱싱 또는 데이터 검증과 같은 다양한 핵심 기능을 배제함으로써 검색 및 연산에서 높은 대가를 수반한다. JSON 문서의 묶음으로부터 정확한 JSON 스키마 발견 알고리즘을 개발하기 위한 노력이 지속되어 왔다. 그러나 기존 스키마 발견 기법들은 상향식이 아닌 하향식(top-down) 알고리즘에 기반하고 있어, JSON 트리의 자식 노드에 대한 가시성이 부족하다는 문제에 직면한다. 하위 수준의 JSON 요소에 대한 정보가 부재한 경우, 하향식 알고리즘은 노드의 스키마 유형을 결정하기 위해 가정과 휴리스틱을 활용해야 한다. 하지만 이러한 정적 결정은 데이터셋에서 종종 위반되며, 그 결과 하향식 알고리즘의 성능이 저하된다. 이를 극복하기 위해 우리는 JSON 문서를 하향식이 아닌 하향(bottom-up) 방식으로 처리하는 ReCG라는 알고리즘을 제안한다. 이 알고리즘은 JSON 문서 트리에서 리프(leaf) 요소로부터 위로 스키마를 구축함으로써, 스키마 노드 유형에 대해 보다 정보에 기반한 결정을 내릴 수 있다. 또한 스키마를 구축하는 과정에서 MDL(최소 기술 길이, Minimum Description Length) 원칙을 체계적으로 적용하여, 후보 스키마들 중 일반성(generality)은 적절히 균형을 이루면서도 가장 간결하면서도 정확한 스키마를 선택한다. 평가는, 제안 기법이 발견된 스키마의 재현율과 정밀도를 최대 47%까지 향상시키며, 그로 인해 F1 점수가 46% 더 개선되는 동시에 최신 기술 대비 평균 2.11배 더 빠른 성능을 보임을 나타낸다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.