음성 기반 감정 임베딩과 안정화 정렬을 결합한 3D 얼굴 애니메이션 및 인식 연구

3D Facial Animation, Alignment, and Emotion Recognition with Speech-driven Emotional Embeddings and Stabilization

연구 내용

음성에서 감정 상태를 추출해 3D 말하는 얼굴을 생성하고, 시간 안정화 정렬과 영역 가중 주의를 통해 인식 성능을 높이는 연구

본 연구는 3D 얼굴 처리에서 감정 표현 생성, 시간 축 안정화, 얼굴 인식의 세 축을 연결하는 방식으로 수행됩니다. 먼저 음성으로부터 복합 감정 상태를 회귀해 감정 조건이 하나로 고정되지 않는 상황에서도 자연스러운 3D talking face animation을 생성하며, 입 모션과 함께 머리 움직임을 포함해 발화 자연성을 강화합니다. 다음으로 3DMM 기반 정렬에서 정체성과 표정 변화 및 시간 단서가 혼재될 때 발생하는 불안정 변형을 분리해 안정적 얼굴 복원을 유도합니다. 비디오 기반에서는 프레임 간 분포 차이를 줄이는 시간 판별 구조를 적용하고, 인접 프레임 변형의 일관성 학습을 통해 떨림 아티팩트를 완화합니다. 또한 정보 영역을 선택하고 영역 간 주의 가중을 추정하는 region adaptive self-attention으로 표정 인식 성능을 개선합니다.

관련 프로젝트

1건

연구 흐름

초기 연구는 3D 얼굴 모델의 재구성과 정렬에서 정체성-표정 모호성이 시간 흐름을 따라 어떻게 누적되는지에 주목하여, 변위 학습과 시간 단서 기반의 안정화 재구성 프레임을 제안했습니다. 이후 고속 이동과 빠른 변화에서 발생하는 비디오 떨림을 줄이기 위해, 시간 축에서 정렬 결과와 정답 애니메이션 간 분포 차이를 학습하는 temporal discriminating 체계를 확장했습니다. 동시에 정체성, 표정, 시간에 대응하는 다중 stability discriminator를 도입해 안정성 판별을 강화했습니다. 한편 음성에서 감정 소스를 직접 추출해 조건 기반 생성의 적용 한계를 완화하는 방향으로 확장하고, 표정 인식에는 정보 영역 중심의 region adaptive self-attention을 적용해 얼굴 감정 인식 정확도를 끌어올리는 흐름을 이어갔습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

음성-대응 3D 아바타 생성
감정 상태 회귀 기반 표현 생성
비디오 기반 3D 얼굴 안정화
3DMM 매개 정렬 품질 향상
표정 인식의 정보 영역 추적
발화 자연성 향상 파이프라인
머리 움직임 동시 생성
실감형 콘텐츠 제작 자동화
얼굴 데이터셋 라벨 보조
휴먼-컴퓨터 인터랙션 입력 고도화