본 논문은 길게 늘어진 물체가 밀집된 환경에서 실제 산업 현장에서 높은 성공률을 달성하는 그립 자세(grasp pose) 탐지 방법을 개발한다. 기존의 Vision Transformer(ViT) 기반 방법들은 전체적인 물체 배치를 포괄적으로 인코딩하는 융합(fused) 특성 맵을 포착하지만, 공간적 세부 정보의 감소를 흔히 겪는다. 따라서 이러한 방법들은 충돌을 효율적으로 회피할 수 있는 그립 자세를 예측하더라도, 그 자세의 위치를 충분히 정밀하게 특정하지 못한다. 이러한 관찰에 동기를 받아, 본 연구는 Oriented Region-based Vision Transformer(OR-ViT)를 제안한다. OR-ViT는 ViT 백본의 가장 얕은 층에서 직접 세밀한(fine-grained) 특성 맵을 추출함으로써 핵심적인 공간 정보를 보존하고, 또한 융합 특성 맵을 포착함으로써 전역적 물체 배치를 이해한다. OR-ViT는 세밀한 특성 맵으로부터 정밀한 그립 자세 위치를 디코딩하고, 그 정보를 융합 맵에서의 전역적 물체 배치에 대한 이해에 통합한다. 이와 같은 방식으로 OR-ViT는 충돌 확률을 낮추면서도 정확한 그립 자세 위치를 예측할 수 있다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.