음성 정보 시각화 장치 및 방법
MEASURING APPARATUS AND METHOD FOR VISUALZIE VOICE INFORMATION
특허 요약
본 발명의 실시 예는 화자의 음성을 나타내는 자막에 화자가 발화한 감정이 노출될 수 있는 음성 정보 시각화 장치 및 방법을 발명한다.
청구항
번호청구항
16

제10항에 있어서, 상기 감정 추정 모델은 상기 화자 별로 각각 개인화되어 생성된 딥 러닝 기반의 학습 모델인, 음성 정보 시각화 장치.

1

각 단계가 프로세서에 의해 수행되는, 화자의 음성 정보를 시각화하는 방법으로서,시각화 기준을 위해 수집된 화자의 음성을 수집하는 단계;상기 음성을 시각화한 자막을 출력하기 위해 상기 화자의 감정 정도를 예측하는 감정 추정 모델에 상기 음성을 입력하여 상기 화자의 감정 정도를 예측하는 단계; 및상기 예측된 감정 정도에 대응하도록 상기 자막의 위치, 크기, 굵기 및 흔들림 중 적어도 어느 하나에 대한 자막형상을 제어하여 자막을 출력하는 단계를 포함하고,상기 출력하는 단계는,상기 화자의 음성을 시간 흐름에 기준하여 복수의 음절로 분할하는 단계;상기 분할된 복수의 음절 중 시간 흐름에 대한 제1 음절, 제2 음절 및 제3 음절이 인접한 경우, 상기 제1 음절 내지 상기 제3 음절을 정규화하는 단계; 및현재 시점의 상기 제1 음절의 크기와 상기 제1 음절보다 이전 시점에 발화한 상기 제2 음절의 크기의 차이와, 상기 제2 음절의 크기와 상기 제2 음절보다 이전 시점에 발화한 상기 제3 음절의 크기의 차이가 기 설정된 임계값 이내인 경우, 상기 제1 음절 내지 상기 제3 음절이 나타내는 상기 자막형상이 동일하도록 출력하는 단계를 포함하고,상기 정규화하는 단계는,상기 제1 음절 내지 상기 제3 음절에 대한 제1 평균 볼륨, 제2 평균 볼륨 및 제3 평균 볼륨과, 상기 제1 음절 내지 상기 제3 음절에 대한 제1 평균 피치, 제2 평균 피치 및 제3 평균 피치를 측정하는 단계;상기 제1 평균 볼륨 내지 상기 제3 평균 볼륨에 대한 인접음절 평균 볼륨 및 상기 제1 평균 피치 내지 상기 제3 평균 피치에 대한 인접음절 평균 피치를 측정하는 단계; 및상기 제1 음절 내지 상기 제3 음절 각각에 상기 인접음절 평균 볼륨 및 인접음절 평균 피치를 적용하는 단계를 포함하는,음성 정보 시각화 방법.

2

제1항에 있어서, 상기 감정 정도는, 상기 화자의 음성에 대한 볼륨, 피치(pitch) 및 상기 음성의 감정 레이블 중 적어도 어느 하나인, 음성 정보 시각화 방법.

3

제2항에 있어서, 상기 감정 추정 모델은 상기 화자의 음성으로부터 상기 화자가 입력한 상기 화자의 감정 정도로 레이블링된 훈련 데이터로 훈련된, 음성 정보 시각화 방법.

4

제3항에 있어서, 상기 감정 추정 모델을 훈련하기 위한 상기 훈련 데이터를 생성하는 단계를 더 포함하고, 상기 훈련 데이터를 생성하는 단계는, 상기 화자의 음성에 기초한 상기 화자의 감정 정도를 구분하여 수집한 후, 평균 볼륨, 평균 피치 및 평균 감정 레이블 중 적어도 어느 하나의 데이터를 생성하는, 음성 정보 시각화 방법.

5

삭제

6

삭제

7

삭제

8

삭제

9

제1항에 있어서, 상기 감정 추정 모델은 상기 화자 별로 각각 개인화되어 생성된 딥 러닝 기반의 학습 모델인, 음성 정보 시각화 방법.

10

화자의 음성 정보를 시각화하는 장치로서,적어도 하나의 프로세서; 및상기 프로세서에 연결된 메모리를 포함하고,상기 메모리는,상기 프로세서에 의해 수행되고, 시각화 기준을 위해 수집된 화자의 음성을 수집하고, 상기 음성을 시각화한 자막을 출력하기 위해 상기 화자의 감정 정도를 예측하는 감정 추정 모델에 상기 음성을 입력하여 상기 화자의 감정 정도를 예측한 후, 상기 예측된 감정 정도에 대응하도록 상기 자막의 위치, 크기, 굵기 및 흔들림 중 적어도 어느 하나에 대한 자막형상을 제어하여 자막을 출력하기 위한 명령들을 저장하고,상기 메모리는,상기 화자의 음성을 시간 흐름에 기준하여 복수의 음절로 분할하고,상기 분할된 복수의 음절 중 시간 흐름에 대한 제1 음절, 제2 음절 및 제3 음절이 인접한 경우, 상기 제1 음절 내지 상기 제3 음절에 대한 인접음절 평균 볼륨 및 인접음절 평균 피치(pitch)를 측정하고, 상기 제1 음절 내지 상기 제3 음절 각각에 상기 인접음절 평균 볼륨 및 인접음절 평균 피치를 적용하여 상기 제1 음절 내지 상기 제3 음절을 정규화하고,현재 시점의 상기 제1 음절의 크기와 상기 제1 음절보다 이전 시점에 발화한 상기 제2 음절의 크기의 차이와, 상기 제2 음절의 크기와 상기 제2 음절보다 이전 시점에 발화한 상기 제3 음절의 크기의 차이가 기 설정된 임계값 이내인 경우, 상기 제1 음절 내지 상기 제3 음절이 나타내는 상기 자막형상이 동일하도록 출력하기 위한 명령들을 저장하는,음성 정보 시각화 장치.

11

제10항에 있어서,상기 메모리는,상기 예측된 감정 정도를 나타낸 리스트에 기초하여 상기 자막의 크기, 굵기 및 흔들림 중 적어도 어느 하나에 대한 자막형상을 제어하기 위한 명령들을 저장하는, 음성 정보 시각화 장치.

12

삭제

13

삭제

14

삭제

15

삭제