기본 정보
연구 분야
프로젝트
논문
구성원
article|
·
인용수 1
·2025
From Faces to Voices: Learning Hierarchical Representations for High-quality Video-to-Speech
Jihoon Kim, Jeongsoo Choi, Jaehun Kim, Chaeyoung Jung, Joon Son Chung
초록

본 연구의 목적은 무성(無聲) 말하기 얼굴 비디오로부터 고품질 음성을 생성하는 것으로, 이는 비디오-음성 합성(video-to-speech synthesis)이라는 과제이기도 하다. 비디오-음성 합성에서의 주요 도전 과제는 무성 비디오와 다면적(multifaceted) 음성 간에 존재하는 실질적인 모달리티 격차(modality gap)이다. 본 논문에서는 이러한 모달리티 격차를 효과적으로 해소하여 합성 음성의 품질을 유의미하게 향상시키는 새로운 비디오-음성 합성 시스템을 제안한다. 이는 비디오로부터 음성에 이르는 계층적(hierarchical) 표현을 학습함으로써 달성된다. 구체적으로, 우리는 세 가지 순차적 단계—콘텐츠(content), 팀브르(timbre), 운율(prosody) 모델링—를 통해 무성 비디오를 점진적으로 음향 특징 공간(acoustic feature space)으로 변환한다. 각 단계에서는 시각적 요인인 입 움직임, 얼굴 정체성(face identity), 얼굴 표정(facial expressions)을 해당하는 음향적 대응물과 정렬하여 매끄러운 변환이 이루어지도록 한다. 또한 시각적 표현으로부터 사실적이고 일관된 음성을 생성하기 위해, 단순한 사전 분포(prior distribution)에서 목표 음성 분포(target speech distribution)로의 직접적인 궤적을 추정하는 flow matching 모델을 사용한다. 광범위한 실험 결과, 본 방법은 실제 발화와 견줄 만한 탁월한 생성 품질을 달성하며, 기존 방법들에 비해 상당한 폭으로 성능이 우수함을 보여준다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Computer scienceSpeech recognitionQuality (philosophy)Natural language processingArtificial intelligenceMultimedia
타입
article
IF / 인용수
- / 1
게재 연도
2025

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.