데이터 간의 종속성을 가지는 시계열 데이터, 공간 데이터 또는 시공간 데이터 분석에서 중요한 목적 중의 하나인 최적의 예측을 위한 이론적, 방법론적, 알고리즘적 도전적 이슈들 중에 본 연구자가 지금까지 고민해온 몇 가지 이슈들에 대한 심도 있는 연구를 통해, 이론의 확장, 방법론 모색, 효과적 알고리즘 개발 등으로 나름의 해결책을 제시하는 것이 본 연구과제...
공간자료예측
스펙트럴 밀도함수
가변계수모형
확장가능한계산
공간표본추출법
2
2022년 3월-2024년 12월
|213,340,000원
통계데이터 재현자료기법의 활용성과 유용성을 높여야 하는 문제 해결
디지털 대전환으로 데이터는 4차 산업혁명의 핵심자원으로 부상하고 있으며, 정부는 데이터 경제의 안전한 토대 마련 및 활성화를 위하여 본 연구 과제를 추진하였다. 이를 위해 데이터 보호 기술의 핵심인 재현자료 생성 기반 기술을 확보하고, 시장 안착 및 지속적인 성장을 위한 기반을 조성하고자 한다. 먼저, 기반 기술 확보를 위해 주요 수요처인 통계청과 기타 예...
데이터 경제
데이터 정보 보호
재현 자료
생성 기법
자동 추천
3
주관|
2022년 3월-2024년 12월
|783,850,000원
통계데이터 재현자료기법의 활용성과 유용성을 높여야 하는 문제 해결
연구 개발 목표를 달성하기 위해, 기반 기술 확보 및 기반 조성을 위한 연구 개발을 수행한다.
먼저, 기반 기술 확보를 위한 연구는 크게 4가지로 구분하여 수행한다. 첫 번째는 Membership Collision Attack 노출 위험도 지표, 고립도 기반 위험도 지표, SGIS 등 지리 정보와의 연계 공격 노출 위험도 지표, 서베이 데이터의 특성을 반영하는 유용성 지표, 재현 마이크로데이터로부터 추정한 매크로 값의 불확실성 지표, 위험성을 통제하면서 유용성을 극대화하는 minmax 원리를 이용한 통합지표 등 평가 지표 개발을 위한 연구를 수행한다. 두 번째는, 재현 자료 생성 기법 연구이다. Score-based Generative Model 기법, Bayesian multiple imputation 등 5건의 접근법 및 알고리즘을 연구·고도화하여 현재 수준 대비 기법의 유용성을 10% 향상하고, 원자료 대비 통계 추론의 정확성은 95%를 달성할 계획이다. 세 번째는 재현 자료 생성 자동 추천 기법의 개발이다. 재현 자료 평가 행렬 구축, 추천 알고리즘 탐색, 추천 알고리즘 평가 및 검증, 재현 자료 평가 행렬 구축의 4단계로 진행하며, Oracle과의 일치도(Cohen`s kappa)가 0.5 이상인지를 검증한다. 마지막으로, 재현자료 생성기법의 원자료와의 일관성(consistency) 상승 연구이다. 기계학습을 이용한 불가능 사상 탐색 및 방지 기법을 개발하여, 재현자료의 유용성 및 생성 편의성을 극대화한다.
다음으로, 시장 안착 및 지속 성장을 위한 기반 조성 연구는 다음과 같다. 공개 SW인 R의 `synthpop` 패키지 개선을 포함하여 4개의 공개 SW를 개발 및 고도화한다. 공개된 R-package를 활용하여 사용자들이 다양한 환경에서 재현 자료 생성 기법을 적용할 수 있는 토대를 마련하고, 경진대회 등의 피드백을 활용하여 더 고도화된 재현 자료 생성 기법을 개발하는 데 활용하고자 한다. 공급자와 수요자의 활용 편의성을 높이기 위해 가이드라인을 작성 및 공개하여 재현 자료 생성의 접근성, 활용성, 안전성을 제고한다.
연구 개발 목표를 달성하기 위해, 기반 기술 확보 및 기반 조성을 위한 연구 개발을 수행한다.
먼저, 기반 기술 확보를 위한 연구는 크게 4가지로 구분하여 수행한다. 첫 번째는 Membership Collision Attack 노출 위험도 지표, 고립도 기반 위험도 지표, SGIS 등 지리 정보와의 연계 공격 노출 위험도 지표, 서베이 데이터의 특성을 반영하는 유용성 지표, 재현 마이크로데이터로부터 추정한 매크로 값의 불확실성 지표, 위험성을 통제하면서 유용성을 극대화하는 minmax 원리를 이용한 통합지표 등 평가 지표 개발을 위한 연구를 수행한다. 두 번째는, 재현 자료 생성 기법 연구이다. Score-based Generative Model 기법, Bayesian multiple imputation 등 5건의 접근법 및 알고리즘을 연구·고도화하여 현재 수준 대비 기법의 유용성을 10% 향상하고, 원자료 대비 통계 추론의 정확성은 95%를 달성할 계획이다. 세 번째는 재현 자료 생성 자동 추천 기법의 개발이다. 재현 자료 평가 행렬 구축, 추천 알고리즘 탐색, 추천 알고리즘 평가 및 검증, 재현 자료 평가 행렬 구축의 4단계로 진행하며, Oracle과의 일치도(Cohen`s kappa)가 0.5 이상인지를 검증한다. 마지막으로, 재현자료 생성기법의 원자료와의 일관성(consistency) 상승 연구이다. 기계학습을 이용한 불가능 사상 탐색 및 방지 기법을 개발하여, 재현자료의 유용성 및 생성 편의성을 극대화한다.
다음으로, 시장 안착 및 지속 성장을 위한 기반 조성 연구는 다음과 같다. 공개 SW인 R의 `synthpop` 패키지 개선을 포함하여 4개의 공개 SW를 개발 및 고도화한다. 공개된 R-package를 활용하여 사용자들이 다양한 환경에서 재현 자료 생성 기법을 적용할 수 있는 토대를 마련하고, 경진대회 등의 피드백을 활용하여 더 고도화된 재현 자료 생성 기법을 개발하는 데 활용하고자 한다. 공급자와 수요자의 활용 편의성을 높이기 위해 가이드라인을 작성 및 공개하여 재현 자료 생성의 접근성, 활용성, 안전성을 제고한다.
본 과제는 데이터가 복잡해지는 시대에 맞춰 통계학 미래인재를 키우는 교육연구단 운영을 목표로 함.
연구 목표는 다변화된 데이터 분석역량과 종합적 사고능력을 갖춘 세계적 인재 양성, 데이터과학 시대에 필요한 새로운 통계학 연구 분야·방법론 개척, 국제화 교류 활성화임. 핵심 연구 내용은 서울대학교 통계학과 참여교수의 세계 수준 연구역량을 기반으로 해외 유수 대학 및 연구기관과 공동연구를 확대하고 UC Berkeley 등에서 대학원생 연구역량을 극대화하는 연수·국제 학술활동 지원을 수행하는 체계 구축임. 기대효과는 2027년까지 교육·연구·국제화 수준의 세계 20위권 도약, 선도적 통계 이론·방법론 개발 및 세계적 교육을 통한 학문후속세대·첨단 산업인력 공급, 공학·의학·생명과학·환경·사회과학 등으로 통계적 방법론 전파로 산업 혁신과 경쟁력 강화 기여임.