합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치 및 방법
System and Method for Expansion Chatting Corpus Based on Similarity Measure Using Utterance Embedding by CNN
특허 요약
본 발명은 채팅 시스템(Chatting system)에 관한 것으로, 구체적으로 단어 단위 임베딩 벡터(Word embedding)와 합성곱 신경망(Convolutional Neural Networks)을 이용하여 길이가 짧은 발화에 대해 효과적으로 발화 단위 표상을 생성하고 발화를 표현할 수 있도록 한 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치 및 방법에 관한 것으로, 윈도우 크기를 이용하여 발화 데이터에서 임의의 채팅쌍을 추출하는 채팅쌍 추출부;발화를 기계가 이해할 수 있도록 발화 단위 표상을 생성하는 발화 단위 표상 생성부;기계에서 임의로 만든 채팅 쌍과 미리 구축되어 있는 채팅 말뭉치의 채팅 유사도(Chatting similarity)를 계산하는 채팅 유사도 계산부;채팅 유사도가 임계값(Threshold)보다 높으면 임의의 채팅 쌍은 응답관계가 맞는 채팅 쌍이라고 판단하여 채팅 말뭉치 확장을 하는 채팅 말뭉치 구축부;를 포함하는 것이다.
청구항
번호청구항
1

윈도우 크기를 이용하여 발화 데이터에서 임의의 채팅쌍을 추출하는 채팅쌍 추출부;발화를 기계가 이해할 수 있도록 발화 단위 표상을 생성하는 발화 단위 표상 생성부;기계에서 임의로 만든 채팅 쌍과 미리 구축되어 있는 채팅 말뭉치의 채팅 유사도(Chatting similarity)를 계산하는 채팅 유사도 계산부;채팅 유사도가 임계값(Threshold)보다 높으면 임의의 채팅 쌍은 응답관계가 맞는 채팅 쌍이라고 판단하여 채팅 말뭉치 확장을 하는 채팅 말뭉치 구축부;를 포함하고,발화 단위 표상 생성부는 저차원(Low dimensions)의 의미 정보가 포함된 벡터로 표현하기 위하여, 형태소의 DF(Document Frequency)를 이용하여 길이가 짧은 발화를 효과적으로 표현할 수 있는 형태소만을 선택하여 평균 임베딩 벡터를 생성하고, 사용한 형태소는 일반명사, 고유명사, 수사, 동사, 형용사, 일반 부사를 선택적으로 포함하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치.

2

제 1 항에 있어서, 채팅 유사도 계산부는 i번째 임의의 쌍(pair)이 입력으로 들어 왔을 때 채팅 유사도를,으로 구하고,i번째 쌍은 길이가 n인 미리 구축된 채팅 말뭉치의 전체 쌍과 각각 유사도를 계산하여, 구해진 유사도 중 가장 큰 값을 i번째 쌍의 채팅 유사도라 하고, 이 채팅 유사도가 미리 정의된 임계값보다 크다면 올바른 쌍이라고 판단하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치.

3

제 2 항에 있어서, 채팅 유사도를 계산하기 위해 코사인 유사도(Cosine similarity)를 이용하고,임의로 추출된 쌍과 미리 구축된 채팅 말뭉치는 모두 사용자 발화와 시스템 발화의 쌍으로 구성되어 있기 때문에 각각의 유사도를 계산하고, 두 유사도의 반영 비율인 감마() 이용으로, 선형 결합(Linear combination)하여 하나의 채팅 유사도로 표현하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치.

4

삭제

5

제 1 항에 있어서, 발화 단위 표상 생성부는,합성곱 신경망(Convolutional Neural Networks) 모델과 단어 단위 임베딩을 이용하여 발화 단위 표상을 생성하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치.

6

제 5 항에 있어서, 발화를 Projection layer를 통해 형태소 단위 임베딩 벡터로 표현하고,Convolution layer와 max polling을 이용하여 심층 자질 표상(Deep feature representation)으로 유도하고, 유도된 심층 자질 표상을 이용하여 최종적인 출력 벡터(Output vector)를 유도하고, 정답 벡터(Answer vector)와 차이를 계산하여 학습하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치.

7

제 6 항에 있어서, 학습을 위해 합성곱 신경망 모델의 정답 벡터는 LSA(Latent Semantic Analysis)와 TFIDF를 이용하여 생성하고,발화에 대해 TFIDF를 이용하여 표현하고 차원을 줄이고 잠재적 의미 분석을 수행하는 LSA를 이용하여 매트릭스를 분리, 저차원의 밀집된(Dense) 벡터를 정답 벡터로 사용하고,합성곱 신경망 모델을 이용하여 출력 벡터(Output vector)를 유도하고, 정답 벡터와 코사인 거리(Cosine distance)가 줄어들도록 학습을 진행하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치.

8

제 7 항에 있어서, 출력 벡터는 학습을 위해 사용한 것이고, 실제 발화 단위 표상으로 사용하는 벡터는 학습이 완료된 합성곱 신경망 모델의 심층 자질 표상을 발화 단위 표상으로 사용하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치.

9

채팅쌍 추출부에서 윈도우 크기를 이용하여 발화 데이터에서 임의의 채팅쌍 추출을 하는 채팅쌍 추출 단계;발화 단위 표상 생성부에서 발화를 기계가 이해할 수 있도록 발화 단위 표상을 생성하는 발화 단위 표상 생성 단계;채팅 유사도 계산부에서 기계에서 임의로 만든 채팅 쌍과 미리 구축되어 있는 채팅 말뭉치의 채팅 유사도(Chatting similarity)를 계산하는 채팅 유사도 계산 단계;채팅 유사도가 임계값(Threshold)보다 높으면 채팅 말뭉치 구축부에서 임의의 채팅 쌍은 응답관계가 맞는 채팅 쌍이라고 판단하여 채팅 말뭉치 확장을 하는 채팅 말뭉치 구축 단계;를 포함하고,발화 단위 표상 생성 단계에서 저차원(Low dimensions)의 의미 정보가 포함된 벡터로 표현하기 위하여, 형태소의 DF(Document Frequency)를 이용하여 길이가 짧은 발화를 효과적으로 표현할 수 있는 형태소만을 선택하여 평균 임베딩 벡터를 생성하고, 사용한 형태소는 일반명사, 고유명사, 수사, 동사, 형용사, 일반 부사를 선택적으로 포함하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 방법.

10

제 9 항에 있어서, 채팅 유사도 계산 단계에서,i번째 임의의 쌍(pair)이 입력으로 들어 왔을 때 채팅 유사도를,으로 구하고,i번째 쌍은 길이가 n인 미리 구축된 채팅 말뭉치의 전체 쌍과 각각 유사도를 계산하여, 구해진 유사도 중 가장 큰 값을 i번째 쌍의 채팅 유사도라 하고, 이 채팅 유사도가 미리 정의된 임계값보다 크다면 올바른 쌍이라고 판단하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 방법.

11

제 10 항에 있어서, 채팅 유사도를 계산하기 위해 코사인 유사도(Cosine similarity)를 이용하고,임의로 추출된 쌍과 미리 구축된 채팅 말뭉치는 모두 사용자 발화와 시스템 발화의 쌍으로 구성되어 있기 때문에 각각의 유사도를 계산하고, 두 유사도의 반영 비율인 감마() 이용으로, 선형 결합(Linear combination)하여 하나의 채팅 유사도로 표현하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 방법.

12

삭제

13

제 9 항에 있어서, 발화 단위 표상 생성 단계에서,합성곱 신경망(Convolutional Neural Networks) 모델과 단어 단위 임베딩을 이용하여 발화 단위 표상을 생성하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 방법.

14

제 13 항에 있어서, 발화를 Projection layer를 통해 형태소 단위 임베딩 벡터로 표현하고,Convolution layer와 max polling을 이용하여 심층 자질 표상(Deep feature representation)으로 유도하고, 유도된 심층 자질 표상을 이용하여 최종적인 출력 벡터(Output vector)를 유도하고, 정답 벡터(Answer vector)와 차이를 계산하여 학습하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 방법.

15

제 14 항에 있어서, 학습을 위해 합성곱 신경망 모델의 정답 벡터는 LSA(Latent Semantic Analysis)와 TFIDF를 이용하여 생성하고,발화에 대해 TFIDF를 이용하여 표현하고 차원을 줄이고 잠재적 의미 분석을 수행하는 LSA를 이용하여 매트릭스를 분리, 저차원의 밀집된(Dense) 벡터를 정답 벡터로 사용하고,합성곱 신경망 모델을 이용하여 출력 벡터(Output vector)를 유도하고, 정답 벡터와 코사인 거리(Cosine distance)가 줄어들도록 학습을 진행하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 방법.

16

제 15 항에 있어서, 출력 벡터는 학습을 위해 사용한 것이고, 실제 발화 단위 표상으로 사용하는 벡터는 학습이 완료된 합성곱 신경망 모델의 심층 자질 표상을 발화 단위 표상으로 사용하는 것을 특징으로 하는 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 방법.