자연어 처리 및 시계열 분석을 위해 처음 개발된 트랜스포머 아키텍처는 여러 분야의 다양한 생성 모델에 성공적으로 적용되어 왔다. 물체 자세 추정(object pose estimation)은 이미지를 사용하여 물체의 3차원 위치와 자세(orientation)를 결정하며, 로봇 조작과 같은 작업에 필수적이다. 본 연구는 컴퓨터 비전에서 물체 자세 추정을 위한 트랜스포머 기반 딥러닝 모델을 제안하며, 이 모델은 이미지를 입력으로 하여 물체의 3차원 위치와 자세를 결정한다. 인코더 전용 트랜스포머에서 유도된 기준(baseline) 모델은 다수의 물체를 처리할 때 높은 GPU 메모리 사용량 문제에 직면한다. 학습 효율을 향상시키고 다중 물체 추론을 지원하기 위해, 본 연구는 트랜스포머의 attention 레이어를 조정하여 메모리 사용량을 감소시키고, low-rank weight decomposition을 도입하여 파라미터 수를 줄인다. 또한 GQA 및 RMS 정규화가 다중 물체 자세 추정 성능을 향상시켜, 메모리 사용량 감소와 함께 학습 정확도의 향상을 이끌었다. 확장된 행렬 차원을 적용한 개선 모델 구현은 모델 가중치 파라미터 수를 증가시켰음에도 불구하고, GPU 메모리 사용량을 기준 모델의 2.5%로 감소시켰다. 이를 완화하기 위해 attention의 선형(linear) 레이어에서 low-rank weight decomposition을 사용하여 가중치 파라미터 수를 28% 줄였다. 또한 GQA와 RMS 정규화를 적용함으로써 기준 모델 대비 회전(rotation) 학습 정확도를 17% 향상시켰다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.