합성데이터 생성과 공분산 추정 기반 데이터 유틸리티 평가 연구

Synthetic Data Generation and Covariance Estimation for Data Utility Evaluation

연구 내용

합성데이터 생성 절차를 공분산 행렬 추정과 연결해 데이터의 통계적 특성을 보존하면서 유틸리티를 높이도록 설계하고, 데이터 경제·윤리 관점에서 합성데이터의 역할을 정리하는 연구

본 연구는 합성데이터 생성에서 공분산 행렬 추정의 품질이 데이터 유틸리티에 미치는 영향을 다룹니다. covariance matrix estimation을 개선하는 합성데이터 생성 방법을 통해 합성 과정에서 통계적 구조가 유지되도록 설계하고, 이를 실증적으로 평가하는 방향으로 진행합니다. 또한 합성데이터 생성(synthpop)과 관련된 경험적 검토를 수행하여 생성 방식, 데이터 수집 맥락, 데이터 활용 관점에서 고려 요소를 정리합니다. 동시에 데이터 경제 및 데이터 주권, 데이터 오너십 등 법·윤리 이슈와 연결해 합성데이터 활용의 전제 조건을 검토하는 연구를 수행합니다.

관련 프로젝트

2건

연구 흐름

초기에는 합성데이터 생성 분야 전반을 경험적 관점에서 정리하기 위해 synthpop 리뷰를 수행했습니다. 이후에는 합성데이터가 실제 분석에 쓰이기 위해 필요한 통계량 보존 문제에 집중하여 공분산 행렬 추정 성능을 향상시키는 생성 방법을 제안했습니다. 그 과정에서 공분산 추정과 합성 생성 사이의 연결 고리를 명확히 하고, 생성 결과의 유틸리티를 실증적으로 점검하는 방향으로 확장했습니다. 최근에는 synthpop 관련 추가 리뷰를 통해 데이터 수집, 맥락, 데이터 구성 요소의 관점에서 정리 내용을 보강하고, 데이터 경제·윤리 과제와 결합해 적용 시 고려점을 도출하는 연구를 수행했습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

개인정보 보호용 합성데이터
데이터 비식별화 대체 전략
공분산 구조 보존
데이터 유틸리티 평가
데이터 거버넌스 지원
데이터 오너십 검토
데이터 공유 시뮬레이션
학습용 합성 샘플 생성
실증 벤치마크 프레임
합성데이터 설계 지침