인간 동작 합성은 전통적으로 미래 동작 예측이나 알려진 핵심 자세(key-poses)를 조건으로 중간 자세(intermediate poses)를 채우는 것과 같은 특정 과제에 초점을 맞춘 과제 의존적 모델을 통해 다루어져 왔다. 본 논문에서는 이러한 과제들을 통합된 아키텍처로 효과적으로 해결할 수 있는 새로운 과제 비의존적 모델 UNIMASK-M을 제안한다. 우리의 모델은 각 분야에서 기존 최첨단(state-of-the-art)과 비교 가능하거나 그보다 우수한 성능을 보인다. Vision Transformers(ViTs)의 아이디어에 영감을 받아, UNIMASK-M은 인간의 자세를 신체 부위로 분해하여 인간 동작에 존재하는 시공간적(spatio-temporal) 관계를 활용한다. 또한 우리는 여러 자세 조건부(pose-conditioned) 동작 합성 과제들을 입력으로 주어진 서로 다른 마스킹 패턴을 바탕으로 하는 복원(reconstruction) 문제로 재구성한다. 마스킹된 관절(masked joints)에 대해 모델에 명시적으로 정보를 제공함으로써, UNIMASK-M은 가림(occlusions)에 대해 보다 견고해진다. 실험 결과, 본 모델은 Human3.6M 데이터셋에서 인간 동작을 성공적으로 예측하는 동시에, LaFAN1 데이터셋에서 장기간 전이(long transition periods)에 대한 모션 인비트윙(motion inbetweening) 분야에서 최첨단 성과를 달성함을 보여준다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.