주변 환경의 운동 상태를 이해하는 것은 안전한 자율주행에 있어 핵심적이다. 이러한 운동 상태는 점들의 3차원 운동장을 포착하는 scene flow로부터 정확하게 도출될 수 있다. 기존의 LiDAR scene flow 방법들은 각 포인트 클라우드로부터 공간 특징을 추출한 다음 이를 채널별로 융합하여, 시공간 특징을 암묵적으로 추출하는 결과를 초래한다. 또한 2D Bird's Eye View를 활용하고 단지 두 프레임만 처리하여, Z축 방향의 중요한 공간 정보를 놓치고 더 넓은 시간적 맥락도 반영하지 못함으로써 성능이 최적이 아니다. 이러한 한계를 해결하기 위해 본 연구에서는 Flow4D를 제안한다. Flow4D는 3D intra-voxel feature encoder 이후 다수의 포인트 클라우드를 시간적으로 융합함으로써, 4D voxel 네트워크를 통해 시공간 특징을 보다 명시적으로 추출할 수 있게 한다. 그러나 4D 컨볼루션을 사용하면 성능이 향상되는 동시에 계산량이 크게 증가한다. 추가적인 효율을 위해, 우리는 무거운 4D 컨볼루션 대신 3D 및 1D 컨볼루션을 결합하는 Spatio-Temporal Decomposition Block (STDB)를 도입한다. 또한 Flow4D는 더 풍부한 시간 정보를 활용하기 위해 5개 프레임을 사용함으로써 성능을 한층 더 향상시킨다. 그 결과, 제안된 방법은 실시간으로 동작하면서 기존의 최신 기술 대비 45.9% 더 높은 성능을 달성하였고, 2024 Argoverse 2 Scene Flow Challenge에서 1st 자리를 수상하였다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.