강한 지도(supervision)와 약한 지도(supervision)는 상호 보완적인 특성을 지닌다. 그러나 개체명 인식(named entity recognition, NER)에서 두 가지 지도를 모두 활용하는 방법은 충분히 연구되지 않았다. 또한 기존 연구들은 불완전한 주석에만 초점을 두며, NER 모델 학습 과정에서 나타나는 부정확한 주석을 소홀히 한다. 약한 라벨을 효과적으로 활용하기 위해, 약한 라벨로부터 학습하는 보조 분류기(auxiliary classifier)를 도입한다. 나아가 불완전하고 부정확한 약한 라벨을 모두 처리하기 위해 교사-학생(teacher-student) 프레임워크를 채택한다. 먼저, 교사 모델을 강한 지도 및 약한 지도 데이터를 모두 사용하여 1차로 학습시키고, 다음으로 약한 라벨을 대체하기 위해 의사 라벨(pseudo labels)을 생성한다. 그 후, 학생 모델을 학습하여 주 분류기(main classifier)는 강한 라벨과 신뢰도 높은 의사 라벨로부터 학습하도록 하고, 보조 분류기는 신뢰도가 낮은 의사 라벨로부터 학습하도록 한다. 또한 모델 성능과 일반화 능력을 향상시키기 위해 ChatGPT를 통한 데이터 증강(data augmentation)을 도입하여 추가로 주석이 달린 문장을 생성한다. 다양한 약한 지도 조건에서의 실험 결과는, 제안한 방법이 기존 기술을 능가함을 보여준다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.