다기준 의사결정 시 활용할 수 있는 스카이라인 질의는 다수의 선택지 중에서 사용자가 '선호하지 않을 만한'(uninteresting) 선택지를 제거함으로써 사용자가 검토해야 하는 선택지의 수를 대폭 감소시키기 때문에 대용량 데이터 분석 시 매우 유용하게 활용될 수 있다. 이러한 배경에서 대용량 데이터에 대한 스카이라인 질의를 분산 병렬 처리하는 기법이 각광을 받고 있으며, 특히 맵리듀스(MapReduce) 기반의 분산 병렬 처리 기법 연구가 활발히 진행되어 왔다. 맵리듀스 기반 알고리즘의 병렬성 제고를 위해서는 부하 불균등 문제, 중복 계산 문제, 과다한 네트워크 비용 발생 문제를 해소해야 한다. 본 논문에서는 부하 불균등 문제와 중복 계산 문제를 해소하면서도 데이터 샘플링 기반 프루닝을 통해 네트워크 비용을 절감할 수 있는 맵리듀스 기반 병렬 스카이라인 질의 처리 기법인 MR-SEAP(MapReduce sample Skyline object Equality Angular Partitioning)을 소개한다. 또한 다양한 관점에서의 실험 평가를 수행함으로써 제안 기법의 효용성을 다방면으로 검증했다. 다차원 튜플 데이터셋이 주어졌을 때, 스카이라인 질의는 어떤 다른 튜플에 의해서도 '지배(dominated)'되지 않는 튜플들의 부분집합을 반환한다. 스카이라인 질의는 빅데이터 분석에서 매우 유용한데, 이는 흥미롭지 않은 항목을 필터링하기 때문이다. 대규모 분산 환경에서 스카이라인 질의를 맵리듀스(MapReduce) 기반 병렬 처리로 수행하는 것에 대한 관심이 크다. 맵리듀스 기반 알고리즘에서 병렬성을 향상시키기 위한 요구사항은 세 가지이다. (1) 작업량이 잘 균형을 이루어야 한다. (2) 중복 계산을 피해야 한다. (3) 네트워크 통신 비용을 최적화해야 한다. 본 논문에서는 위의 요구사항을 만족하는, 샘플링 기반 프루닝을 이용한 효율적인 각도 공간 분할 기반 스카이라인 질의 처리 기법인 MR-SEAP(MR-SEAP; MapReduce sample Skyline object Equality Angular Partitioning)를 제안한다. 또한 MR-SEAP을 평가하기 위해 포괄적인 실험을 수행한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.