임의의 얼굴 자세로부터 정면 이미지를 합성하는 것을 목표로 하는 얼굴 정면화(face frontalization)는 얼굴 인식, 표정 분석, 립 리딩(lip reading)과 같은 하위 과제의 성능을 향상시키는 데 중요한 역할을 한다. 그러나 기존 방법들은 대개 쌍(pair) 또는 주석이 달린 데이터셋에 의존하는데, 이는 특히 제약 없는 실제 환경에서 확보하기에 비용이 많이 들고 비현실적이다. 이러한 한계를 극복하기 위해, 우리는 사전 학습된 생성(generative) 및 인코더 기반 투영(encoder-based projection) 모델을 활용하여 효율적인 정면 얼굴 합성을 수행하는 새로운 프레임워크를 제안한다. 본 방법은 신원(identity) 인식 세분화(segmentation) 임베딩을 추출하고, 이에 해당하는 세분화 마스크를 조작하여 여러 개의 현실적인 정면 뷰를 생성한 뒤, 신원 손실(identity loss)을 기준으로 최적의 출력을 선택한다. 제안된 접근법은 얼굴 입력이 심각하게 제한된 상황의 극단적인 경우에서도 강건성이 뛰어나며, 최소한의 파인튜닝만 필요하므로 효과성과 계산 효율성을 모두 제공한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.