사람의 실제적인 비디오를 생성하는 일은 여전히 어려운 과제로 남아 있으며, 현재 가장 효과적인 방법들은 인간의 모션 시퀀스를 제어 신호로 활용하는 데 의존하고 있다. 기존 접근법은 종종 다른 비디오에서 추출한 기존 모션을 사용하여 특정 모션 유형과 전역적 장면 정합에 대한 제약을 초래한다. 본 연구에서는 장면 이미지에 조건을 부여하여 인간의 모션 시퀀스를 생성하는 새로운 접근인 Move-in-2D를 제안한다. 이 방법은 다양한 모션을 가능하게 하면서도 서로 다른 장면에 적응할 수 있도록 한다. 우리의 접근은 확산 모델을 활용하며, 장면 이미지와 텍스트 프롬프트를 모두 입력으로 받아 해당 장면에 맞춘 모션 시퀀스를 생성한다. 이 모델을 학습하기 위해 우리는 단일 인간의 활동을 담은 대규모 비디오 데이터셋을 수집하고, 각 비디오에 대응하는 인간 모션을 목표 출력으로 주석 처리한다. 실험 결과, 본 방법은 투영(projection) 이후 장면 이미지와 정합되는 인간 모션을 효과적으로 예측함을 보여준다. 또한 생성된 모션 시퀀스가 비디오 합성 과제에서 인간 모션의 품질을 향상시킨다는 점을 확인하였다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.