RnDCircle Logo
유동현 연구실
인하대학교 통계학과 유동현 교수
고차원 데이터 분석
LASSO
Fused Lasso
연구 영역
기본 정보
논문·특허
과제
구성원

유동현 연구실

인하대학교 통계학과 유동현 교수

유동현 연구실은 통계학과 계산을 기반으로 고차원 데이터의 모수 추정과 신호 처리 문제를 다룹니다. fused lasso signal approximator와 scaled lasso를 활용해 변화점 및 블록 구조를 추정하고, false discovery rate 제어와 path algorithm 성질 분석을 통해 선택 안정성을 확보하는 방법론을 연구합니다. 또한 CUDA 기반 GPU 병렬 알고리즘을 적용해 LASSO 및 정밀행렬/부분상관 추정을 가속하는 계산 통계 연구를 수행합니다. 더불어 합성데이터 생성과 공분산 추정의 연결을 정리하고 데이터 경제·윤리 이슈와 결합해 활용 시 고려점을 검토하며, 분자 표현 학습을 통해 증기압 예측 같은 예측 문제에도 통계적 모델링 관점을 적용합니다.

고차원 데이터 분석LASSOFused Lasso변화점 추정GPU 병렬 계산
대표 연구 분야
연구 영역 전체보기
Fused lasso 기반 구간 분할 및 FDR 제어 변화점 추정 연구 thumbnail
Fused lasso 기반 구간 분할 및 FDR 제어 변화점 추정 연구
Fused Lasso Based Segmenting and FDR-Controlled Change-Point Inference
연구 분야 상세보기
연구 성과 추이
표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.
주요 논문
5
논문 전체보기
1
Article
|
인용수 2
·
2025
Improving Vapor Pressure Prediction Through Integration of Multiple Molecular Representations: A Super Learner Approach
Ji Hyun Nam, Seul Lee, Seongil Jo, Jaeoh Kim, Jooyeon Lee, Jahyun Koo, Byounghwak Lee, Keunhong Jeong, Donghyeon Yu
IF 2.1 (2025)
Journal of Chemometrics
화학 공학, 환경 과학, 제약 개발에서 화합물의 휘발성과 안정성에 영향을 미치므로, 증기압의 정확한 예측은 필수적이다. 전통적 방법은 종종 복잡하고 새로 고안된 분자 구조에 대해 충분히 성능을 발휘하지 못한다. 본 연구는 예측 정확도를 향상시키기 위해 그래프 신경망(graph neural networks, GNN)과 CHEM-BERT 모델을 통합한 고도화된 기계 학습 접근법을 제시한다. 현재까지 최대 규모의 데이터셋을 활용하여 포괄적인 화학적 기술자(descriptors)와 핑거프린트를 도출하였다. 우리는 리지 회귀(ridge regression), 랜덤 포레스트(random forest), 서포트 벡터 회귀(support vector regression), 피드포워드 신경망(feed-forward neural networks) 등을 포함한 19개의 예측 모델을 평가하였으며, PaDEL과 Morgan 핑거프린트, 화학적 기술자, Chem-BERT 임베딩과 같은 다양한 특성을 사용하여 학습하였다. 방법론의 핵심은 19개의 다중 모델을 결합하여 정확도를 향상시키는 슈퍼 러너(super learner) 아키텍처이다. 슈퍼 러너는 개별 모델 및 선행 보고보다 우수한 성능을 보이며, 평균제곱근오차(root mean squared error, RMSE) 0.8200을 달성하였다. 이러한 성공적인 결과는 상세한 분자 정보를 포착하기 위해 GNN과 Chem-BERT를 통합하는 접근법의 효과를 보여주며, 증기압 예측을 위한 새로운 벤치마크를 제시한다. 본 연구는 고도화된 기계 학습 기법과 포괄적인 데이터셋의 가치를 강조하며, 연구자들에게 견고한 도구를 제공하고 화학적 물성 예측의 향후 발전을 위한 기반을 마련한다.
https://doi.org/10.1002/cem.70003
Vapor pressure
Computer science
Chemistry
Organic chemistry
2
Article
|
인용수 9
·
2023
Technological Leadership in Industry 4.0: A Comparison Between Manufacturing and ICT Sectors Among Korean Firms
Bogang Jun, Seung Hwan Kim, Hyoji Choi, Jeong hwan Jeon, Donghyeon Yu
IF 3.4 (2023)
IEEE Access
본 논문은 한국의 제조업과 ICT 부문의 기술적 구조를 살펴, 제4차 산업혁명(4IR) 시대에 지배적 기술 분야가 전환될 가능성을 검토한다. 1990년부터 2021년까지 한국 기업의 특허 데이터(patent data)를 활용한 결과, 제조업 부문은 4IR 시대에도 특허의 수와 기술의 다양성 측면에서 모두 한국의 지배적 기술 리더로 나타났다. ICT 부문은 2000년대 이후 Industry 4.0(I4) 기술에 대한 관심이 증가하여 향후 지배력 전환의 가능성을 시사하였으나, 두 부문 간 격차는 여전히 상당하다. 또한 본 연구는 제조업 부문이 기술을 다각화하는 경향이 있는 반면, ICT 부문은 특정 목표 기술들에 특화하는 경향이 있음을 보여준다. 아울러 분석 결과, 두 부문 모두 경로의존성(path-dependency)을 보이며, ICT 부문이 더 강한 특성을 나타내는 것으로 제시된다. 그리고 두 부문의 기업 모두 특허 활동에서 집중적(in intensive margin)·확장적(extensive margin) 여백을 중시하는 경향을 보이지만, 이러한 경향은 제조업 부문 기업에서 더 강하게 나타난다.
https://doi.org/10.1109/access.2023.3259065
Information and Communications Technology
Manufacturing sector
Dominance (genetics)
Business
Manufacturing
Industrial organization
Technological change
Secondary sector of the economy
Economic geography
Marketing
3
Article
|
인용수 0
·
2023
Sparse Partial Correlation Estimation With Scaled Lasso and Its GPU-Parallel Algorithm
Younsang Cho, Seung-Hwan Lee, Jaeoh Kim, Donghyeon Yu
IF 3.4 (2023)
IEEE Access
희소 부분상관 추정은 고차원 데이터 분석에서 널리 다루어지는 주제로, 0이 아닌 부분상관은 다른 변수들을 주었을 때 두 해당 변수 사이의 조건부 의존성을 나타낸다. 가우시안 그래픽 모델에서는 조건부 의존성의 희소성을 달성하기 위해 정규화를 활용하는 많은 방법들이 개발되어 왔다. 기존의 대부분의 방법은 정밀도 행렬(precision matrix)의 비대각 원소들에 대해 페널티를 부과한다. 그러나 이와 같은 접근은 정밀도 행렬의 해당 원소들이 상대적으로 작을 때, 부분상관 계수가 중간 정도의 크기를 갖는 조건부 의존성을 식별하지 못할 수 있다. 본 연구에서는 scaled Lasso를 이용하여 희소 부분상관을 추정하기 위한 2단계 절차를 제안한다. 제안된 절차는 scaled Lasso로부터 정밀도 행렬의 대각 원소들에 대한 일관된 추정기를 사용함으로써 부분상관 추정의 비볼록성(non-convexity)을 해결한다. 또한 반복적 수축 알고리즘(iterative shrinkage algorithm)을 기반으로, 그래픽 처리 장치(graphics processing units)를 활용하는 효율적인 알고리즘을 제안된 방법에 대해 개발한다. 수치 실험 결과는 본 방법이 Frobenius 노름 하에서 부분상관의 추정과 간선(edge) 복구 측면에서 기존 방법들보다 더 우수하게 수행함을 보여준다.
http://dx.doi.org/10.1109/access.2023.3289714
Lasso (programming language)
Estimator
Algorithm
Computer science
Diagonal
Partial correlation
Compressed sensing
Gaussian
Mathematics
Correlation
최신 정부 과제
10
과제 전체보기
1
2020년 8월-2026년 8월
|366,440,000
데이터경제, 데이터 주도 혁신시대의 법과 윤리의 재정립
인터넷과 SNS, 웨어러블 디바이스, IoT에 의한 데이터의 대량 생산과 클라우드저장 및 AI 학습과 빅데이터 분석을 위한 데이터의 대량수요가 맞물리면서, 주요 플랫폼 기업들도 데이터센터의 구축에 박차를 가하고 있고, 데이터거래소가 설립되는 등 4차 산업혁명 시대에 데이터(Data)가 원유에 버금가는 가장 중요한 경제자원으로 부상하였다.이제 (빅)데이터가 ...
데이터
빅데이터
데이터 속성
데이터거래
데이터경제시대
디지털 전환시대
데이터 주권
데이터 오너십
2
2020년 8월-2026년 8월
|366,440,000
데이터경제, 데이터 주도 혁신시대의 법과 윤리의 재정립
인터넷과 SNS, 웨어러블 디바이스, IoT에 의한 데이터의 대량 생산과 클라우드저장 및 AI 학습과 빅데이터 분석을 위한 데이터의 대량수요가 맞물리면서, 주요 플랫폼 기업들도 데이터센터의 구축에 박차를 가하고 있고, 데이터거래소가 설립되는 등 4차 산업혁명 시대에 데이터(Data)가 원유에 버금가는 가장 중요한 경제자원으로 부상하였다.이제 (빅)데이터가 ...
데이터
빅데이터
데이터 속성
데이터거래
데이터경제시대
디지털 전환시대
데이터 주권
데이터 오너십
3
주관|
2020년 5월-2023년 2월
|59,996,000
L1 최소화 기반 정밀행렬 추정 방법론 및 효율적인 알고리즘 연구
본 연구에서는 정밀행렬 추정을 위하여 좋은 이론적 성질을 지님이 알려진 Dantzig 선택기 형태의 L1 최소화 기반 정밀행렬 추정 방법론 및 효율적인 알고리즘에 대하여 연구하고자 한다. 본 연구에서 다루고자 하는 3가지 주제들에 대한 세부 내용은 아래와 같다. (1) 기존의 매개변수 심플렉스 기반 FASTCLIME 알고리즘이 실제 CLIME 추정량을 정확히 제공하지 못함을 확인하였으며 이를 보완하는 알고리즘을 개발한다. 이후 보완된 알고리즘을 기반으로 Adaptive CLIME 추정량의 해-경로(solution-path) 알고리즘을 개발한다. (2) Adaptive CLIME의 이론적 성질과 Scaled Lasso의 오차 분산 추정량의 이론적 성질을 토대로 Adaptive CLIME과 Scaled Lasso의 추정 절차를 결합하여 Adaptive CLIME에서 요구되는 가정의 완화 및 추정량의 성능 개선을 연구하고 이에 대한 효율적인 해-경로 알고리즘을 개발한다. (3) 정밀행렬 추정의 문제를 정밀행렬의 Cholesky 분해 추정 문제로 변환하여 정밀행렬의 Cholesky 분해를 L1 최소화 방법에 기반하여 추정하는 방법에 대하여 연구한다. L1 최소화 방법에 기반한 Cholesky 분해 추정 문제는 선형 목적함수와 이차 제약식을 지닌 최적화 문제로 표현되고 이에 대한 해를 구하는 효율적 알고리즘 개발에 대하여 연구한다.
정밀행렬
그래피컬 모형
L1 최소화
고차원 자료
매개변수 심플렉스
Cholesky 분해