주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
Article
|
인용수 0
·
2025A Noise-Resilient Auto-Labeling Framework With Transition Matrix
W Lee, Youngbum Hur
IF 3.6 (2025)
IEEE Access
최근 자동 라벨링 프레임워크가 다양한 산업 전반의 많은 응용 분야에 적용되고 있다. 의사 라벨링(pseudo-labeling)은 가장 일반적인 자동 라벨링 방법이며, 이 방법은 의사 라벨을 할당하여 비라벨 데이터를 라벨 데이터로 변환하는 것이다. 그러나 의사 라벨링을 위한 완벽한 모델이 존재하지 않는 한, 비라벨 데이터로부터 얻는 추가 라벨 데이터에는 항상 노이즈 라벨이 포함된다. 하지만 이러한 문제는 아직 많은 연구자들에 의해 충분히 다루어지지 않았다. 본 연구에서는 라벨 노이즈의 영향을 완화하기 위해 전이 행렬(transition matrix)을 사용하는 노이즈에 강인한 자동 라벨링 프레임워크를 제안한다. 이 프레임워크는 크게 세 단계로 구성된다: (1) 비라벨 데이터에 대한 의사 라벨 생성, (2) 추정된 전이 벡터와 모델 출력 간의 KL-divergence를 기반으로 노이즈 샘플을 식별, (3) 노이즈 샘플을 비라벨 데이터로, 클린 샘플을 라벨 데이터로 사용하여 반지도 학습(semi-supervised learning) 방식으로 최종 모델을 학습한다. 또한 초기 모델의 정확도에 따라 의사 라벨링을 통해 추가되는 노이즈의 정도가 얼마나 달라지는지를 보여준다. 실험 결과, 제안된 방법은 표준 분류 벤치마크(예: CIFAR-10 및 CIFAR-100)와 실제 데이터셋(예: Clothing100K, Food-101)에서 모두 노이즈 라벨을 처리하는 데 있어 최신(state-of-the-art) 방법들보다 우수함을 입증하였다.
https://doi.org/10.1109/access.2025.3626158
Noise (video)
Noisy data
Labeled data
Matrix (chemical analysis)
Training set
Data modeling
Pattern recognition (psychology)
Stochastic matrix
2
Article
|
인용수 1
·
2024Self-Supervised Anomaly Detection Using Outliers for Multivariate Time Series
Jaehyeop Hong, Youngbum Hur
IF 3.6 (2024)
IEEE Access
충분한 라벨 데이터를 확보하기 어렵기 때문에, 자기지도학습(SSL)은 최근 시계열 이상 탐지 분야에서 많은 연구자들의 큰 관심을 받고 있다. SSL 모델 중 하나인 생성적 적대 신경망(GAN) 기반 오토인코더 모델은 이상 탐지에서 우수한 성능을 보이지만, 지나치게 민감한 경향이 있어(즉, 정상 데이터를 작은 이상값으로 비정상으로 예측) 문제를 일으킬 수 있다. 본 논문에서는 일부 센서에서 평균으로부터 크게 벗어난 값을 갖는, 잘못 예측된 정상 데이터가 존재함을 확인하였다. 우리는 이러한 데이터를 이상치(outlier)라고 명명한다. 이러한 데이터는 학습 데이터셋 내에서 소수이기 때문에, 모델이 이를 재구성하는 데 어려움을 겪고 결과적으로 비정상으로 잘못 예측한다. 이러한 발견을 바탕으로, 상관 특징에 기반한 클러스터링을 통해 이상치를 찾아내고 이를 효율적인 학습에 활용하는 견고한 자기지도 이상 탐지 프레임워크를 제안한다. 본 방법의 성능을 평가하기 위해 실제 환경의 펌프 데이터셋에서 다양한 딥러닝 기반 이상 탐지 방법들과 비교한다. 그 결과, 제안한 방법이 우수함을 입증하였다. 본 방법을 통해 우리는 이상 데이터에 대한 민감도는 유지하면서, 작은 이상값을 갖는 정상 데이터에 대한 민감도는 낮출 수 있다.
https://doi.org/10.1109/access.2024.3522325
Anomaly detection
Multivariate statistics
Computer science
Time series
Outlier
Series (stratigraphy)
Artificial intelligence
Anomaly (physics)
Pattern recognition (psychology)
Data mining
3
Article
|
인용수 4
·
2024TripletMatch: Wafer Map Defect Detection Using Semi-Supervised Learning and Triplet Loss With Mixup
Changjin Lim, Youngbum Hur
IF 3.6 (2024)
IEEE Access
반도체 제조 공정에서 전기 다이 선별(Electrical Die Sorting, EDS)은 웨이퍼 위의 각 칩에 대해 품질을 평가하기 위해 사용되는 후공정이다. EDS 시험의 결과는 웨이퍼 빈 맵(Wafer Bin Map, WBM)으로 시각화되며, 결함이 있는 웨이퍼를 식별하는 것과 같은 품질 관리 목적에 활용된다. 최근에는 웨이퍼의 결함을 식별하기 위한 유력한 접근으로 딥러닝이 부상하였다. 그러나 반도체 산업에서의 결함에 관한 데이터는 여전히 부족하다. 본 논문에서는 라벨이 없는 데이터에 대해 삼중항 손실(triplet loss)을 활용하는 준지도 학습 방법인 TripletMatch를 제안한다. 제안된 방법은 FixMatch 프레임워크를 확장하고, 결정 경계를 완화하기 위해 Mixup을 고려한다. 실험 결과는 TripletMatch가 다양한 최근 딥러닝 기반 방법 및 손실 함수들에 비해 우수함을 보여준다.
https://doi.org/10.1109/access.2024.3510681
Wafer
Computer science
Artificial intelligence
Supervised learning
Machine learning
Pattern recognition (psychology)
Materials science
Optoelectronics
Artificial neural network
4
Article
|
인용수 5
·
2022A Simple Framework for Robust Out-of-Distribution Detection
Youngbum Hur, Eunho Yang, Sung Ju Hwang
IF 3.9 (2022)
IEEE Access
분포 외(out-of-distribution, OOD) 탐지는, 주어진 테스트 샘플이 학습 분포로부터 벗어난 것인지 여부를 식별하는 것으로, 딥 분류기를 실제 응용 환경에 배치하는 데 필수적이다. 기존의 OOD 탐지 최신 방법들은 분류 네트워크의 내부 특징을 활용함으로써 이 문제를 다룬다. 그러나 우리는 이러한 탐지 방법들이 훈련 분포와 근접한 형태로부터 생성된 어려운 OOD 이미지(즉, 훈련 분포에서 가까운 샘플)에 대해 본질적으로 탐지에 어려움을 겪는다는 점을 발견했으며, 순진한 softmax 기반 기준선조차도 그것들보다 성능이 더 우수하였다. 이에 동기부여되어, 우리는 분류기의 softmax 확률을 추가로 보정(calibration)하여 어려운 경우와 쉬운 경우 모두에서 높은 OOD 탐지 성능을 달성하기 위한, 간단하면서도 효과적인 훈련 계획을 제안한다. 구체적으로, 학습 과정에서 일관성 정규화(consistency regularization)와 자기지도학습(self-supervised) 손실을 최적화할 것을 제안한다. 우리의 실험 결과는 다양한 OOD 탐지 시나리오에서 해당 단순 방법이 우수함을 보여준다.
https://doi.org/10.1109/access.2022.3153723
Softmax function
Computer science
Classifier (UML)
Artificial intelligence
Machine learning
Pattern recognition (psychology)
Regularization (linguistics)
Data mining
Deep learning
5
Article
|
인용수 0
·
2022Malaysian Name-based Ethnicity Classification using LSTM
Youngbum Hur
IF 1.5 (2022)
KSII Transactions on Internet and Information Systems
성명 분리(전체 이름을 성과 이름으로 분할)는 다인종 국가에서 번거로운 작업이 아니다. 이는 성과 이름을 분할하는 절차가 민족성에 따라 다르기 때문이다. 말레이시아에는 여러 주요 민족 집단이 존재하므로, 말레이시아인의 전체 이름을 성과 이름으로 구분하는 일은 도전 과제에 해당한다. 본 연구에서는 딥러닝을 활용한 말레이시아어 이름 분리를 위한 2단계 프레임워크를 개발한다. 1단계에서는 전체 이름의 민족성을 예측한다. 예측을 위해 문자 임베딩을 사용하는 long short-term memory 네트워크 기반의 모델과 순환 신경망(recurrent neural network)을 제안한다. 예측된 민족성을 바탕으로 2단계에서는 규칙 기반 알고리즘을 사용하여 전체 이름을 성과 이름으로 분리한다. 제안한 모델의 성능을 다양한 머신러닝 모델과 비교 평가한 결과, 평균 9%의 향상으로 이들보다 우수함을 입증하였다. 또한, 추가 데이터셋을 사용한 제안 모델의 전이학습 및 미세조정은 평균 최대 7%까지 향상을 가져온다.
http://dx.doi.org/10.3837/tiis.2022.12.004
Computer science
Artificial intelligence
Ethnic group
Natural language processing
Anthropology
Sociology