성명 분리(전체 이름을 성과 이름으로 분할)는 다인종 국가에서 번거로운 작업이 아니다. 이는 성과 이름을 분할하는 절차가 민족성에 따라 다르기 때문이다. 말레이시아에는 여러 주요 민족 집단이 존재하므로, 말레이시아인의 전체 이름을 성과 이름으로 구분하는 일은 도전 과제에 해당한다. 본 연구에서는 딥러닝을 활용한 말레이시아어 이름 분리를 위한 2단계 프레임워크를 개발한다. 1단계에서는 전체 이름의 민족성을 예측한다. 예측을 위해 문자 임베딩을 사용하는 long short-term memory 네트워크 기반의 모델과 순환 신경망(recurrent neural network)을 제안한다. 예측된 민족성을 바탕으로 2단계에서는 규칙 기반 알고리즘을 사용하여 전체 이름을 성과 이름으로 분리한다. 제안한 모델의 성능을 다양한 머신러닝 모델과 비교 평가한 결과, 평균 9%의 향상으로 이들보다 우수함을 입증하였다. 또한, 추가 데이터셋을 사용한 제안 모델의 전이학습 및 미세조정은 평균 최대 7%까지 향상을 가져온다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.