A Study on the Generality of Neural Network Structures for Monocular Depth Estimation | 임성훈 교수 연구실 | 대구경북과학기술원 전기전자컴퓨터공학과

임성훈 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 21

·2023

A Study on the Generality of Neural Network Structures for Monocular Depth Estimation

Jinwoo Bae, Kyumin Hwang, Sunghoon Im

IF 20.8 (2023) IEEE Transactions on Pattern Analysis and Machine Intelligence

초록

단안 깊이 추정은 널리 연구되어 왔으며, 최근 성능에 대한 상당한 개선 결과가 보고되었다. 그러나 대부분의 선행 연구는 KITTI 데이터셋과 같은 소수의 벤치마크 데이터셋에서만 평가되었고, 단안 깊이 추정의 일반화 성능에 대한 심층 분석을 제공한 연구는 없다. 본 논문에서는 단안 깊이 추정의 일반화를 위해 다양한 백본 네트워크(예: CNN 및 Transformer 모델)를 면밀히 조사한다. 먼저, 네트워크 학습 중에는 한 번도 접해보지 않은 데이터인 in-distribution 및 out-of-distribution 데이터셋 모두에서 최신 기법 모델들을 평가한다. 다음으로, 합성 텍스처-시프트(texture-shifted) 데이터셋을 사용하여 CNN-/Transformer 기반 모델의 중간 층에서 얻은 표현(representations)의 내부 특성을 분석한다. 광범위한 실험을 통해, Transformer는 강한 형태 편향(shape-bias)을 보이는 반면 CNN은 강한 질감 편향(texture-bias)을 보인다는 점을 관찰한다. 또한 질감 편향 모델은 단안 깊이 추정에서 형태 편향 모델보다 더 나쁜 일반화 성능을 보임을 발견한다. 다양한 환경에서 촬영된 실제 주행 데이터셋에서도 유사한 양상이 나타남을 시연한다. 마지막으로, 현대의 전략들에서 활용되는 다양한 백본 네트워크를 대상으로 밀집(dense) 애블레이션 연구를 수행한다. 실험 결과는 CNN의 고유한 국소성(intrinsic locality)과 Transformer의 자기-어텐션(self-attention)이 각각 질감 편향 및 형태 편향을 유발한다는 것을 보여준다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

MonocularArtificial intelligenceComputer scienceGeneralityTransformerGeneralizationPattern recognition (psychology)Artificial neural networkLocalityComputer vision

타입

article

IF / 인용수

20.8 / 21

원문

https://doi.org/10.1109/tpami.2023.3332407

게재 연도

2023

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)