| 번호 | 청구항 |
|---|---|
| 1 | 텍스트에 포함된 개체명을 인식하는 개체명 인식 장치에 있어서,개체명 인식 프로그램이 저장된 메모리; 및상기 개체명 인식 프로그램을 실행하는 프로세서를 포함하되,상기 개체명 인식 프로그램은,텍스트 데이터를 수신하고, 상기 텍스트 데이터를 개체명 인식 모델이 입력하여 상기 텍스트 데이터에 포함된 개체명을 추출하고, 상기 개체명에 대한 카테고리를 분류하여 개체명을 인식하며,상기 개체명 인식 모델은,텍스트에 포함된 개체명을 추출하고, 상기 개체명이 속하는 카테고리를 분류하는 것으로, 강한 지도 학습 데이터와 약한 지도 학습 데이터를 이용하여 지도 학습된 의사 레이블(pseudo label) 데이터 생성 모델을 통해 생성된 의사 레이블 데이터와 상기 강한 지도 학습 데이터를 이용하여 텍스트 데이터에 포함된 개체명을 추출하고, 상기 개체명에 대한 카테고리를 분류하도록 학습된 것이며,상기 강한 지도 학습 데이터는,사람에 의해 각 개체명의 카테고리가 레이블링된 데이터이고,상기 약한 지도 학습 데이터는,미리 학습된 인공지능 분류 모델 또는 휴리스틱(Heuristics)을 통해 개체명의 카테고리가 레이블링된 데이터이며,상기 의사 레이블 데이터는,상기 의사 레이블 데이터 생성 모델을 통해 상기 약한 지도 학습 데이터의 각 개체명의 카테고리가 레이블링된 데이터인, 개체명 인식 장치. |
| 2 | 제1항에 있어서,상기 의사 레이블 데이터 생성 모델 및 상기 개체명 인식 모델은,소정 텍스트에 포함된 각 개체명을 추출하고, 각 개체명에 대한 벡터를 생성하는 인코더;상기 인코더부터 수신된 각 벡터에 대한 카테고리를 레이블링하는 메인 분류기 및 보조 분류기를 포함하는, 개체명 인식 장치. |
| 3 | 제2항에 있어서,상기 의사 레이블 데이터 생성 모델은,상기 강한 지도 학습 데이터를 이용하여 상기 의사 레이블 데이터 생성 모델의 메인 분류기를 학습되고, 상기 약한 지도 학습 데이터를 이용하여 상기 의사 레이블 데이터 생성 모델의 보조 분류기를 학습되는, 개체명 인식 장치. |
| 4 | 제3항에 있어서,상기 의사 레이블 데이터 생성 모델은,상기 강한 지도 학습 데이터의 각 개체명에 대하여 상기 메인 분류기가 예측한 각 개체명에 설정될 카테고리에 대한 확률과 상기 강한 지도 학습 데이터에 설정된 레이블 사이의 손실에 기초하여 상기 메인 분류기의 학습 파라미터 및 상기 인코더의 임베딩 파라미터가 업데이트되고,상기 약한 지도 학습 데이터의 각 개체명에 대하여 상기보조 분류기가 예측한 각 개체명에 설정될 카테고리에 대한 확률과 상기 약한 지도 학습 데이터에 설정된 레이블 사이의 손실에 기초하여 상기 보조 분류기의 학습 파라미터 및 상기 인코더의 임베딩 파라미터가 업데이트되는 과정을 통해 구축된 것인, 개체명 인식 장치. |
| 5 | 제2항에 있어서,상기 의사 레이블 데이터 생성 모델은,상기 메인 분류기를 통해 상기 의사 레이블 데이터를 생성하는 것인, 개체명 인식 장치. |
| 6 | 제2항에 있어서,상기 의사 레이블 데이터 생성 모델은,상기 약한 지도 학습 데이터에 포함된 각 개체명이 복수의 카테고리 각각에 포함될 확률을 계산하여 각 개체명에 대한 확률 테이블을 생성하고, 상기 각 개체명에 대한 확률 테이블에 기초하여 상기 의사 레이블 데이터를 생성하는, 개체명 인식 장치. |
| 7 | 제6항에 있어서,상기 의사 레이블 데이터 생성 모델은,상기 각 개체명의 확률 테이블에 기초하여 각 카테고리의 임계 확률값을 계산하며, 상기 각 카테고리의 임계 확률값에 기초하여 상기 약한 지도 학습 데이터에 포함된 각 개체명에 확신 의사 레이블 또는 불확신 의사 레이블을 설정하여 상기 의사 레이블 데이터를 생성하는, 개체명 인식 장치. |
| 8 | 제7항에 있어서, 상기 개체명 인식 모델은,상기 강한 지도 학습 데이터 및 상기 의사 레이블 데이터에 설정된 확신 레이블을 이용하여 메인 분류기가 학습되고, 상기 의사 레이블 데이터에 설정된 불확신 레이블을 이용하여 보조 분류기가 학습되는, 개체명 인식 장치. |
| 9 | 제8항에 있어서,상기 개체명 인식 모델은,상기 강한 지도 학습 데이터의 각 개체명과 확신 레이블이 설정된 상기 의사 레이블 데이터의 개체명에 대하여 상기 메인 분류기가 예측한 각 개체명에 설정될 카테고리에 대한 확률과 상기 강한 지도 학습 데이터의 각 개체명에 설정된 레이블 및 상기 의사 레이블 데이터의 확신 레이블사이의 손실에 기초하여 상기 메인 분류기의 학습 파라미터 및 상기 인코더의 임베딩 파라미터가 업데이트되고,불확신 레이블이 설정된 상기 의사 레이블 데이터의 개체명에 대하여 상기 보조 분류기가 예측한 각 개체명에 설정될 카테고리에 대한 확률과 상기 의사 레이블 데이터의 불확신 레이블 사이의 손실에 기초하여 상기 보조 분류기의 학습 파라미터 및 상기 인코더의 임베딩 파라미터가 업데이트되는 과정을 통해 구축된 것인, 개체명 인식 장치. |
| 10 | 제9항에 있어서,상기 개체명 인식 모델은,상기 인코더를 통해 소정 텍스트에 포함된 개체명을 추출하고, 상기 메인 분류기를 통해 상기 개체명에 대한 카테고리를 레이블링하는 것인, 개체명 인식 장치. |
| 11 | 개체명 인식 모델을 구축하는 장치에 있어서,개체명 인식 모델을 구축하는 구축 프로그램이 저장된 메모리; 및상기 구축 프로그램을 실행하는 프로세서를 포함하되,상기 구축 프로그램은,강한 지도 학습 데이터와 약한 지도 학습 데이터를 이용하여 의사 레이블(pseudo label) 데이터 생성 모델을 학습시키고, 학습이 완료된 의사 레이블 데이터 생성 모델에 상기 약한 지도 학습 데이터를 적용하여 의사 레이블 데이터를 생성하며, 상기 강한 지도 학습 데이터와 상기 의사 레이블 데이터를 이용하여 개체명 인식 모델을 학습시키되,상기 의사 레이블 데이터 생성 모델 및 상기 개체명 인식 모델은,소정 텍스트에 포함된 개체명을 추출하고, 각 개체명이 속하는 카테고리를 레이블링하는 것이고,상기 강한 지도 학습 데이터는,사람에 의해 각 개체명의 카테고리가 레이블링된 데이터이며,상기 약한 지도 학습 데이터는,미리 학습된 인공지능 분류 모델 또는 휴리스틱(Heuristics)을 통해 개체명의 카테고리가 레이블링된 데이터이며,상기 의사 레이블 데이터는,상기 의사 레이블 데이터 생성 모델을 통해 상기 약한 지도 학습 데이터의 각 개체명의 카테고리가 레이블링된 데이터인, 개체명 인식 모델 구축 장치. |
| 12 | 제11항에 있어서,상기 의사 레이블 데이터 생성 모델 및 상기 개체명 인식 모델은,소정 텍스트에 포함된 각 개체명을 추출하고, 각 개체명에 대한 벡터를 생성하는 인코더;상기 인코더로부터 수신된 각 벡터에 대한 카테고리를 레이블링하는 메인 분류기 및 보조 분류기를 포함하는, 개체명 인식 모델 구축 장치. |
| 13 | 제12항에 있어서, 상기 구축 프로그램은,상기 강한 지도 학습 데이터를 이용하여 상기 의사 레이블 데이터 생성 모델의 메인 분류기를 학습시키고, 상기 약한 지도 학습 데이터를 이용하여 상기 의사 레이블 데이터 생성 모델의 보조 분류기를 학습시키되,상기 강한 지도 학습 데이터의 각 개체명에 대하여 상기 의사 레이블 데이터 생성 모델의 메인 분류기가 예측한 각 개체명에 설정될 카테고리에 대한 확률과 상기 강한 지도 학습 데이터에 설정된 레이블 사이의 손실에 기초하여 상기 메인 분류기의 학습 파라미터 및 상기 인코더의 임베딩 파라미터를 업데이트하고,상기 약한 지도 학습 데이터의 각 개체명에 대하여 상기 의사 레이블 데이터 생성 모델의 보조 분류기가 예측한 각 개체명에 설정될 카테고리에 대한 확률과 상기 약한 지도 학습 데이터에 설정된 레이블 사이의 손실에 기초하여 상기 보조 분류기의 학습 파라미터 및 상기 인코더의 임베딩 파라미터를 업데이트하는, 개체명 인식 모델 구축 장치. |
| 14 | 제12항에 있어서,학습이 완료된 의사 레이블 데이터 생성 모델은,상기 메인 분류기를 통해 상기 의사 레이블 데이터를 생성하는 것인, 개체명 인식 모델 구축 장치. |
| 15 | 제12항에 있어서,상기 의사 레이블 데이터 생성 모델은,상기 약한 지도 학습 데이터에 포함된 각 개체명이 복수의 카테고리 각각에 포함될 확률을 계산하여 각 개체명에 대한 확률 테이블을 생성하고, 상기 각 개체명에 대한 확률 테이블에 기초하여 상기 의사 레이블 데이터를 생성하는, 개체명 인식 모델 구축 장치. |
| 16 | 제15항에 있어서,상기 의사 레이블 데이터 생성 모델은,상기 각 개체명의 확률 테이블에 기초하여 각 카테고리의 임계 확률값을 계산하며, 상기 각 카테고리의 임계 확률값에 기초하여 상기 약한 지도 학습 데이터에 포함된 각 개체명에 확신 의사 레이블 또는 불확신 의사 레이블을 설정하여 상기 의사 레이블 데이터를 생성하는, 개체명 인식 모델 구축 장치. |
| 17 | 제16항에 있어서, 상기 구축 프로그램은,상기 개체명 인식 모델의 메인 분류기는 상기 강한 지도 학습 데이터 및 상기 의사 레이블 데이터에 설정된 확신 레이블을 이용하여 학습시키고, 상기 개체명 인식 모델의 상기 보조 분류기는 상기 의사 레이블 데이터에 설정된 불확신 레이블을 이용하여 학습시키되,상기 개체명 인식 모델의 메인 분류기가 예측한 각 벡터의 확률과 상기 강한 지도 학습 데이터 또는 상기 의사 레이블 데이터에 설정된 확신 레이블 사이의 손실에 기초하여 상기 메인 분류기의 학습 파라미터 및 상기 인코더의 임베딩 파라미터를 업데이트하고,상기 개체명 인식 모델의 보조 분류기가 예측한 각 벡터의 확률과 상기 의사 레이블 데이터에 설정된 불확신 레이블 사이의 손실에 기초하여 상기 보조 분류기의 학습 파라미터 및 상기 인코더의 임베딩 파라미터를 업데이트하는, 개체명 인식 모델 구축 장치. |
| 18 | 제17항에 있어서,학습이 완료된 개체명 인식 모델은,상기 인코더를 통해 소정 텍스트에 포함된 개체명을 인식하고, 상기 메인 분류기를 통해 상기 개체명에 대한 카테고리를 레이블링하는 것인, 개체명 인식 모델 구축 장치. |
| 19 | 개체명 인식 모델 구축 장치를 통해 개체명 인식 모델을 구축하는 방법에 있어서,강한 지도 학습 데이터와 약한 지도 학습 데이터를 이용하여 의사 레이블(pseudo label) 데이터 생성 모델을 학습시키는 단계;학습이 완료된 의사 레이블 데이터 생성 모델에 상기 약한 지도 학습 데이터를 적용하여 의사 레이블 데이터를 생성하는 단계; 및 상기 강한 지도 학습 데이터와 상기 의사 레이블 데이터를 이용하여 개체명 인식 모델을 학습시키는 단계를 포함하되,상기 의사 레이블 데이터 생성 모델 및 상기 개체명 인식 모델은,소정 텍스트에 포함된 각 개체명에 대하여, 각 개체명이 속하는 카테고리에 대하여 레이블링하는 것이고,상기 강한 지도 학습 데이터는,사람에 의해 각 개체명의 카테고리가 레이블링된 데이터이고,상기 약한 지도 학습 데이터는,미리 학습된 인공지능 분류 모델 또는 휴리스틱(Heuristics)을 통해 개체명의 카테고리가 레이블링된 데이터이며,상기 의사 레이블 데이터는,상기 의사 레이블 데이터 생성 모델을 통해 상기 약한 지도 학습 데이터의 각 개체명의 카테고리가 레이블링된 데이터인, 개체명 인식 모델 구축 방법. |
| 20 | 제19항에 있어서,상기 의사 레이블 데이터 생성 모델은,소정 텍스트에 포함된 각 단어에 대한 벡터를 생성하는 인코더;상기 인코더부터 수신된 각 벡터에 대한 카테고리를 레이블링하도록 지도 학습되는 메인 분류기 및 보조 분류기를 포함하고,상기 의사 레이블 데이터 생성 모델을 학습시키는 단계는,상기 강한 지도 학습 데이터를 이용하여 상기 의사 레이블 데이터 생성 모델의 메인 분류기를 학습시키고, 상기 약한 지도 학습 데이터를 이용하여 상기 의사 레이블 데이터 생성 모델의 보조 분류기를 학습시키되,상기 의사 레이블 데이터 생성 모델의 메인 분류기가 예측한 각 개체명에 설정될 카테고리에 대한 확률과 상기 강한 지도 학습 데이터에 설정된 레이블 사이의 손실에 기초하여 상기 메인 분류기의 학습 파라미터 및 상기 인코더의 임베딩 파라미터를 업데이트하고,상기 의사 레이블 데이터 생성 모델의 보조 분류기가 예측한 각 개체명에 설정될 카테고리에 대한 확률과 상기 약한 지도 학습 데이터에 설정된 레이블 사이의 손실에 기초하여 상기 보조 분류기의 학습 파라미터 및 상기 인코더의 임베딩 파라미터를 업데이트하는, 개체명 인식 모델 구축 방법. |
| 21 | 제20항에 있어서,상기 의사 레이블 데이터를 생성하는 단계는,상기 약한 지도 학습 데이터에 포함된 각 개체명이 복수의 카테고리 각각에 포함될 확률을 계산하여 각 개체명에 대한 확률 테이블을 생성하고, 상기 각 개체명에 대한 확률 테이블에 기초하여 상기 의사 레이블 데이터를 생성하는, 개체명 인식 모델 구축 방법. |
| 22 | 제21항에 있어서,상기 의사 레이블 데이터를 생성하는 단계는,상기 각 개체명의 확률 테이블에 기초하여 각 카테고리의 임계 확률값을 계산하며, 상기 각 카테고리의 임계 확률값에 기초하여 상기 약한 지도 학습 데이터에 포함된 각 개체명에 확신 의사 레이블 또는 불확신 의사 레이블을 설정하여 상기 의사 레이블 데이터를 생성하는, 개체명 인식 모델 구축 방법. |
| 23 | 제22항에 있어서,상기 개체명 인식 모델은,소정 텍스트에 포함된 각 단어에 대한 벡터를 생성하는 인코더;상기 인코더부터 수신된 각 벡터에 대한 카테고리를 레이블링하도록 지도 학습되는 메인 분류기 및 보조 분류기를 포함하고,상기 개체명 인식 모델을 학습시키는 단계는상기 강한 지도 학습 데이터 및 상기 의사 레이블 데이터에 설정된 확신 레이블을 이용하여 상기 개체명 인식 모델의 메인 분류기를 학습시키고, 상기 의사 레이블 데이터에 설정된 불확신 레이블을 이용하여 상기 개체명 인식 모델의 상기 보조 분류기를 학습시키되,상기 개체명 인식 모델의 메인 분류기가 예측한 각 개체명에 설정될 카테고리에 대한 확률과 상기 강한 지도 학습 데이터 또는 상기 의사 레이블 데이터에 설정된 확신 레이블 사이의 손실에 기초하여 상기 메인 분류기의 학습 파라미터 및 상기 인코더의 임베딩 파라미터를 업데이트하고,상기 개체명 인식 모델의 보조 분류기가 예측한 각 개체명에 설정될 카테고리에 대한 확률과 상기 의사 레이블 데이터에 설정된 불확신 레이블 사이의 손실에 기초하여 상기 보조 분류기의 학습 파라미터 및 상기 인코더의 임베딩 파라미터를 업데이트하는, 개체명 인식 모델 구축 방법. |