본 연구에서는 해상 장면에서의 효율적인 환경 인식과 상황 인식을 위한 경량화된 Transformer 기반 의미 이미지 분할 네트워크를 제안한다. 본 접근법은 소형 무인수상정(USV, Unmanned Surface Vehicles)을 위한 임베디드 시스템의 경량화 요구사항을 충족하도록 설계되었다. USV에서는 주변 시각 정보를 획득하기 위해 열적외선(Thermal Infrared, TIR) 및 시각 카메라가 널리 사용되며, 의미 분할 기술은 안전한 수역을 인지하고 주변 장면을 이해하는 데 도움을 줄 수 있다. 본 방법에서는 경량 Mix-Transformer를 인코더로 사용하여 다중 스케일 특징을 점진적으로 추출한다. 이후 픽셀 디코더 넥(pixel decoder neck) 모듈로 이러한 특징을 융합하여 스케일이 다른 영역 전반에서 의미 표현을 강화한다. 마지막으로 마스크드 Transformer 디코더가 마스크드 어텐션(masked attention)을 통해 융합된 특징을 정제함으로써, 모델이 의미적으로 중요한 영역에 집중하여 정확한 분할을 수행할 수 있게 한다. 우리는 해상 시나리오에서 Red-Green-Blue(RGB) 및 TIR 영상에 대해 비교 실험을 수행하였으며, 그 결과 본 방법이 기존 접근법보다 정확도에서 우수하고 더 높은 초당 프레임 수(FPS, frames per second)를 달성함을 확인하였다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.