위성 영상(원격탐사)을 이용한 토지피복(Land use land cover) 분류는 생태 감시, 급속한 도시화, 법 집행, 기후 변화, 농업 가뭄 및 재난 복구와 같은 분야에서 지난 10년간 많은 노력이 이루어져 왔다. 저해상도 원격탐사 영상은 정확한 예측에 영향을 미치므로, 고해상도 딥러닝 아키텍처가 널리 요구된다. 본 연구는 계산 비용을 줄이면서 모델 성능을 향상시키기 위해, 4-encoder 기반 경량 ViT와 적층 잔차 자기주목 CNN(SRAN3)을 결합하는 새로운 딥 네트워크 레벨 퓨전(deep network-level fusion) 접근법을 제안한다. SRAN3 모델은 정교한 두드러진 특징을 추출하기 위해 제안되었으며, 4-encoder 기반 ViT는 계산 시간을 줄이면서도 효과적인 학습을 가능하게 한다. 두 네트워크는 심도(depth) 연결(concatenation) 방식으로 융합되며, 이는 두 아키텍처의 장점을 효과적으로 통합한다. 융합 모델의 하이퍼파라미터는 베이지안 최적화를 통해 선택되어 학습 과정을 유의하게 개선한다. 이후 훈련된 모델은 테스트 단계에서 사용되어 심도-연결 레이어로부터 특징을 추출한다. 추출된 특징은 신경망 분류기에 입력되어 최종 예측을 수행한다. 공개 데이터셋 2종인 EuroSAT와 NWPU_RESIS45를 사용하여 향상된 테스트 및 검증 정확도를 도출하였다. 제안한 SRAN3 + WNN(Wide Neural Network)과 4-encoder ViT + WNN은 각각 96.9%와 92.6%의 정확도를 보였으나, 제안한 융합 네트워크 + WNN은 EuroSAT에서 98.4%, NWPU_RESIS45 데이터셋에서 94.7%의 최고 정확도를 달성하였다. 또한 제안된 융합 모델의 해석 가능성은 설명 가능한 인공지능(explainable artificial technique, XAI)을 사용하여 수행되었으며, 토지 이용 및 토지피복 분류에서 향상된 결과가 나타났다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.