단안 깊이 추정은 널리 연구되어 왔으며, 최근 성능에 대한 상당한 개선 결과가 보고되었다. 그러나 대부분의 선행 연구는 KITTI 데이터셋과 같은 소수의 벤치마크 데이터셋에서만 평가되었고, 단안 깊이 추정의 일반화 성능에 대한 심층 분석을 제공한 연구는 없다. 본 논문에서는 단안 깊이 추정의 일반화를 위해 다양한 백본 네트워크(예: CNN 및 Transformer 모델)를 면밀히 조사한다. 먼저, 네트워크 학습 중에는 한 번도 접해보지 않은 데이터인 in-distribution 및 out-of-distribution 데이터셋 모두에서 최신 기법 모델들을 평가한다. 다음으로, 합성 텍스처-시프트(texture-shifted) 데이터셋을 사용하여 CNN-/Transformer 기반 모델의 중간 층에서 얻은 표현(representations)의 내부 특성을 분석한다. 광범위한 실험을 통해, Transformer는 강한 형태 편향(shape-bias)을 보이는 반면 CNN은 강한 질감 편향(texture-bias)을 보인다는 점을 관찰한다. 또한 질감 편향 모델은 단안 깊이 추정에서 형태 편향 모델보다 더 나쁜 일반화 성능을 보임을 발견한다. 다양한 환경에서 촬영된 실제 주행 데이터셋에서도 유사한 양상이 나타남을 시연한다. 마지막으로, 현대의 전략들에서 활용되는 다양한 백본 네트워크를 대상으로 밀집(dense) 애블레이션 연구를 수행한다. 실험 결과는 CNN의 고유한 국소성(intrinsic locality)과 Transformer의 자기-어텐션(self-attention)이 각각 질감 편향 및 형태 편향을 유발한다는 것을 보여준다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.