라라스테이션
인공지능 기반의 라이브 콘텐츠 실시간 번역 송출 방법 및 시스템
METHOD AND SYSTEM FOR BROADCASTING LIVE CONTENT WITH REAL-TIME TRANSLATION BASED ON ARTIFICIAL INTELLIGENCE
특허 요약
본 개시의 기술적 사상에 의한 일 양태에 따른 라이브 콘텐츠의 번역 송출 방법은, 호스트 디바이스에 의해 생성된 라이브스트림 데이터를 수신하는 단계; 수신된 라이브스트림 데이터에 포함된 음성 데이터 및 적어도 하나의 영상 데이터를 획득하는 단계; 획득된 음성 데이터의 발화 시점에 대응하는 타임스탬프를 추출하는 단계; 상기 음성 데이터 및 상기 타임스탬프를 번역 처리부로 전송하는 단계; 상기 번역 처리부로부터, 상기 음성 데이터의 언어를 다른 언어로 번역한 번역 음성 데이터, 및 상기 번역 음성 데이터에 대응하는 번역 영상 데이터를 수신하는 단계; 상기 번역 음성 데이터와 상기 번역 영상 데이터를 상기 라이브스트림 데이터에 합성한 번역 콘텐츠 데이터를 생성하는 단계; 및 생성된 번역 콘텐츠 데이터를 적어도 하나의 뷰어 디바이스로 전송하는 단계를 포함한다.
청구항
번호청구항
1

적어도 하나의 컴퓨팅 장치를 통한 라이브 콘텐츠의 번역 송출 방법에 있어서,호스트 디바이스에 의해 생성된 라이브스트림 데이터를 수신하는 단계;수신된 라이브스트림 데이터에 포함된 음성 데이터 및 복수의 영상 데이터를 획득하는 단계 - 상기 복수의 영상 데이터는, 상기 라이브 콘텐츠를 구성하는 발화자의 얼굴 영역에 대응하는 얼굴 영상 데이터를 포함하도록 별도로 촬영된 제1 영상 데이터 및 상기 라이브 콘텐츠에 포함된 인물들 및 배경을 전체적으로 포함하도록 촬영된 제2 영상 데이터를 포함함;획득된 음성 데이터의 발화 시점에 대응하는 타임스탬프를 추출하는 단계;상기 음성 데이터, 상기 얼굴 영상 데이터를 포함하는 제1 영상 데이터 및 상기 타임스탬프를 번역 처리부로 전송하는 단계;상기 번역 처리부로부터, 상기 음성 데이터의 언어를 다른 언어로 번역한 번역 음성 데이터, 및 상기 제1 영상 데이터를 기초로 상기 번역 음성 데이터에 대응하도록 생성된 번역 영상 데이터를 수신하는 단계;상기 번역 음성 데이터와 상기 번역 영상 데이터를 상기 라이브스트림 데이터에 합성한 번역 콘텐츠 데이터를 생성하는 단계; 및생성된 번역 콘텐츠 데이터를 적어도 하나의 뷰어 디바이스로 전송하는 단계를 포함하되,상기 번역 영상 데이터는,특정 인물이 상기 번역된 음성을 발화하는 모습을 나타내는 번역 영상이며, 원본 영상 내의 발화자 얼굴과 동일한 위치, 각도, 조명 및 표정을 갖도록 딥러닝 기반의 얼굴 생성 모델을 이용하여 획득된 영상 데이터이고,상기 번역 영상 데이터를 상기 라이브스트림 데이터에 합성한 번역 콘텐츠 데이터를 생성하는 단계는,상기 제2 영상 데이터 내의 상기 발화자의 얼굴 영역을 트래킹하는 단계;트래킹 결과에 기초하여, 상기 제2 영상 데이터의 영역 중 상기 번역 영상 데이터의 영역과 대응하는 영역을 판단하는 단계; 및판단된 영역의 영상을 상기 번역 영상 데이터의 영상으로 대체하는 단계를 포함하는,방법.