최근 Mamba 모델은 시각 표현 학습에서 탁월한 성능을 보여 주었고, 그에 따라 객체 검출 및 세분화와 같은 밀집 예측(dense prediction) 과제에 관한 다양한 연구가 진행되어 왔다. 교차 스캔 모듈(Cross-Scan Module, CSM)은 비인과적(non-causal) 시각 데이터 처리에서 나타나는 방향 민감성(direction-sensitive) 문제를 해결하기 위해, 다양한 방향으로부터의 공간 정보를 통합하는 데 핵심적인 역할을 한다. Transformer에서의 패치 정규화(patch regularization)에 관한 선행 연구에 영감을 받아, 모든 입력 패치가 반드시 활용될 필요는 없으며 희소 샘플링(sparse sampling)이 보다 견고한 모델링을 향상시킬 수 있다고 가정한다. 우리는 새로운 Mamba 기반 아키텍처의 스캔 모듈에서 패치를 제거(dropping)하는 것이 가능한지에 대해 탐색한다. 구체적으로, 정해진 제거 비율(drop ratio)로 분할된 이미지 영역을 무작위로 마스킹하고, 이를 방향 인식형(direction-aware) 선택적 탐색(selective searching)을 위해 CSM에 입력한다. 우리의 구현은 기존 Dropout 방법을 그대로 모사하면서도 단순하도록 설계되었다. 실험 결과는 정량적 및 정성적으로 기존의 vanilla Mamba 프레임워크 대비 향상된 성능을 보였다. 본 연구가 특히 스캔 모듈에서의 패치 정규화(patch regularization)와 관련하여 시각 Mamba(visual Mamba)의 활용에 관한 후속 연구에 기여하기를 기대한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.