최근 자동 라벨링 프레임워크가 다양한 산업 전반의 많은 응용 분야에 적용되고 있다. 의사 라벨링(pseudo-labeling)은 가장 일반적인 자동 라벨링 방법이며, 이 방법은 의사 라벨을 할당하여 비라벨 데이터를 라벨 데이터로 변환하는 것이다. 그러나 의사 라벨링을 위한 완벽한 모델이 존재하지 않는 한, 비라벨 데이터로부터 얻는 추가 라벨 데이터에는 항상 노이즈 라벨이 포함된다. 하지만 이러한 문제는 아직 많은 연구자들에 의해 충분히 다루어지지 않았다. 본 연구에서는 라벨 노이즈의 영향을 완화하기 위해 전이 행렬(transition matrix)을 사용하는 노이즈에 강인한 자동 라벨링 프레임워크를 제안한다. 이 프레임워크는 크게 세 단계로 구성된다: (1) 비라벨 데이터에 대한 의사 라벨 생성, (2) 추정된 전이 벡터와 모델 출력 간의 KL-divergence를 기반으로 노이즈 샘플을 식별, (3) 노이즈 샘플을 비라벨 데이터로, 클린 샘플을 라벨 데이터로 사용하여 반지도 학습(semi-supervised learning) 방식으로 최종 모델을 학습한다. 또한 초기 모델의 정확도에 따라 의사 라벨링을 통해 추가되는 노이즈의 정도가 얼마나 달라지는지를 보여준다. 실험 결과, 제안된 방법은 표준 분류 벤치마크(예: CIFAR-10 및 CIFAR-100)와 실제 데이터셋(예: Clothing100K, Food-101)에서 모두 노이즈 라벨을 처리하는 데 있어 최신(state-of-the-art) 방법들보다 우수함을 입증하였다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.