우리는 춤을 음악으로부터 시각적 리듬을 형성하는 움직임으로서 가정하며, 이때 시각적 리듬은 광학 흐름(optical flow)으로부터 인지될 수 있다. 에이전트가 시각적 리듬과 음악 간의 관계를 인식할 수 있다면, 음악과 일치하는 시각적 리듬을 만들기 위한 움직임을 생성함으로써 춤출 수 있을 것이다. 이에 기반하여, 우리는 인간의 비디오로부터 춤추는 방법을 학습하도록 어떤 종류의 비인간형(non-humanoid) 에이전트에도 적용 가능한 프레임워크를 제안한다. 우리의 프레임워크는 두 과정으로 구성된다: (1) 인간의 춤 비디오로부터 광학 흐름(시각적 리듬)과 음악 간의 관계를 인식하는 보상 모델을 학습하고, (2) 그 보상 모델을 바탕으로 강화학습을 통해 비인간형 댄서를 학습한다. 우리의 보상 모델은 광학 흐름과 음악을 위한 두 개의 특징 인코더로 이루어진다. 이들은 동시적인 광학 흐름과 음악 특징 간의 유사성이 더 높아지도록 하는 대조학습(contrastive learning) 기반으로 훈련된다. 이 보상 모델을 통해 에이전트는, 자신의 행동이 주어진 음악 특징과 더 높은 유사성을 갖는 특징을 가진 광학 흐름을 만들어낼 때 더 높은 보상을 획득함으로써 춤을 학습한다. 실험 결과, 생성된 춤 동작은 음악의 비트에 적절히 정렬될 수 있음을 보였고, 사용자 연구 결과는 우리의 프레임워크가 기존 기준선(baselines)보다 인간에게 더 선호됨을 시사한다. 우리가 아는 한, 인간 비디오로부터 춤을 학습하는 비인간형 에이전트에 대한 본 연구는 전례가 없다. 예시 비디오는 https://youtu.be/dOUPvo-O3QY 에서 확인할 수 있다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.