Lightweight Transformer-Based Semantic Segmentation for Efficient Maritime Environmental Perception
Chenming Li, Chengtao Cai, Jinwhan Kim
IFAC-PapersOnLine
본 연구에서는 해상 장면에서의 효율적인 환경 인식과 상황 인식을 위한 경량화된 Transformer 기반 의미 이미지 분할 네트워크를 제안한다. 본 접근법은 소형 무인수상정(USV, Unmanned Surface Vehicles)을 위한 임베디드 시스템의 경량화 요구사항을 충족하도록 설계되었다. USV에서는 주변 시각 정보를 획득하기 위해 열적외선(Thermal Infrared, TIR) 및 시각 카메라가 널리 사용되며, 의미 분할 기술은 안전한 수역을 인지하고 주변 장면을 이해하는 데 도움을 줄 수 있다. 본 방법에서는 경량 Mix-Transformer를 인코더로 사용하여 다중 스케일 특징을 점진적으로 추출한다. 이후 픽셀 디코더 넥(pixel decoder neck) 모듈로 이러한 특징을 융합하여 스케일이 다른 영역 전반에서 의미 표현을 강화한다. 마지막으로 마스크드 Transformer 디코더가 마스크드 어텐션(masked attention)을 통해 융합된 특징을 정제함으로써, 모델이 의미적으로 중요한 영역에 집중하여 정확한 분할을 수행할 수 있게 한다. 우리는 해상 시나리오에서 Red-Green-Blue(RGB) 및 TIR 영상에 대해 비교 실험을 수행하였으며, 그 결과 본 방법이 기존 접근법보다 정확도에서 우수하고 더 높은 초당 프레임 수(FPS, frames per second)를 달성함을 확인하였다.
Optimizing Coverage Path Planning for Underwater Surveys with Mother Ship-Deployed AUVs
Kyungseo Kim, Jinwhan Kim
본 연구는 모선에서 배치된 다수의 자율무인잠수정(AUV)을 활용하여 해양 환경에서의 커버리지 경로 계획(coverage path planning, CPP)을 위한 효율적인 운영 프레임워크를 제시한다. 이러한 환경에서의 다중 차량 운용은 에너지 제약과 환경적 복잡성으로 인해 어려움이 발생한다. 이를 해결하기 위해 우리는 임무 수행 지점까지 AUV를 수송한 후 순차적으로 배치하는 모선 전략을 도입한다. 본 연구는 CPP를 전체 임무 시간(total mission time)을 최소화하기 위한 영역 분할과 차량-영역 배정(vehicle-to-area assignment)을 포함하는 최적화 문제로 정식화한다. 결합된 제약들의 복잡성을 다루기 위해, 배정 관계와 영역 분할을 각각 별도로 인코딩하는 2부(두 부분) 염색체 구조를 갖춘 유전 알고리즘(genetic algorithm, GA)을 개발한다. 몬테카를로 시뮬레이션 결과, 본 GA 기반 프레임워크는 운영 효율을 유의하게 향상시키는 것으로 나타났다.
Dbanet: a dual branch aggregation network for real-time semantic segmentation of omnidirectional images in maritime environments
Chenming Li, Chengtao Cai, Jinwhan Kim, Wentao Zhou, Renjie Qiao
IF 2.7 (2025)
The Journal of Supercomputing
본 연구에서는 해상 환경에서 전방위(omnidirectional) 영상을 효율적이고 실시간으로 의미론적 분할(semantic segmentation)하기 위한 이중 분기 집계 네트워크인 DBANet을 소개한다. 이 분야의 연구 및 평가를 지원하기 위해, 해상 전방위 이미지 분할의 공백을 메우는 해상 전방위 의미론적 분할 데이터셋 또한 제시한다. 전방위 시각 시스템은 360도 인지 능력으로 인해 점차 인기를 얻고 있으나, 넓은 시야각은 상당한 계산 요구를 수반하며, 이러한 시나리오에서의 의미론적 분할을 위한 포괄적인 평가 방법은 여전히 제한적이다. 우리의 접근은 해상 수상(surface) 차량을 위한 지능형 인지(intelligent perception)에 적용 가능한 견고하고 계산적으로 효율적인 해결책을 제공함으로써 이러한 과제를 해결한다. 실험 결과는 DBANet의 성능을 보여주며, MODSS 데이터셋에서는 4.94 FPS에서 92.36 mIoU를, MaSTr1325 데이터셋에서는 30.25 FPS에서 85.08 mIoU를 달성하여 정확도와 효율성 모두에서 기존의 최신(state-of-the-art) 모델을 능가한다.
Wake Homing Torpedo Guidance Using a Hierarchical Deep Reinforcement Learning Framework
Kunchul Hwang, Jinwhan Kim
IF 3.6 (2025)
IEEE Access
본 논문은 기상( wake ) 유도 어뢰(wake homing torpedo) 조정을 위한 새로운 계층적 심층 강화학습(Hierarchical Deep Reinforcement Learning, HRL) 프레임워크를 제안하며, 고수준 정책과 보상 형상화(reward shaping) 함수를 설계하기 위해 이산 사건 시스템 명세(Discrete Event System Specification, DEVS) 형식을 적용한다. 기상 유도 어뢰 조정은 어뢰가 표적 함정의 기상 궤적을 추종하도록 하기 위한 항로 명령(course commands)을 생성한다. 표적 함정이 접근 중인 어뢰를 회피하는 경우, 기상 궤적은 곡선 형태가 되며, 기상 탐지 센서의 협소한 탐지 범위로 인해 어뢰가 종종 궤적 추적을 상실한다. 이는 특히 소음이 있는 환경에서 어뢰가 기상 궤적에서 이탈했다가 다시 진입하는 상황을 포함하여, 표적 함정을 일관되게 추적하기 위한 정교한 알고리즘을 요구한다. 휴리스틱 알고리즘은 일반적인 기상 궤적을 처리할 수 있으나, 알려지지 않은 궤적에 대해 강건한 해법을 개발하는 것은 여전히 중요한 과제로 남아 있다. 이를 해결하기 위해 본 연구는 새로운 강화학습을 적용하여 유도 로직을 개발하고, 그 성능을 기존의 알고리즘 기반 방법과 비교한다. 제안한 접근법의 성능과 효용성은 수치 시뮬레이션을 통해 입증한다.
ID(O): Mapping Data Quantization for Bathymetric Collaborative SLAM
Qianyi Zhang, Jinwhan Kim
IF 10.5 (2025)
IEEE Transactions on Robotics
수중 음향 통신은 제한된 대역폭, 높은 지연, 낮은 신뢰성이라는 특징으로 인해 심해측(bathymetric) 협력적 동시 위치추정 및 지도작성(collaborative simultaneous localization and mapping; CSLAM)에서 데이터 교환에 중대한 도전을 야기한다. 본 논문에서는 심해측 CSLAM의 지도 데이터 압축을 위한 ID(O)라는 새로운 벡터 양자화(vector quantization; VQ) 방법을 제안한다. ID(O)는 지도를 인덱스 맵(I), 중심 심도 지도(central depth map) (D), 그리고 방향성 지도(orientation map) (O)로 부호화한다. 엄격한 통신 제약을 수용하기 위해, 방향성 정보는 전송에서 부분적 또는 완전하게 제외될 수 있으며, 지도 복원 과정에서 이러한 방향성을 추정하는 방법을 제안한다. 또한, 우리는 ID(O)를 TTT CSLAM으로 명명된 특징 기반 심해측 CSLAM 프레임워크에 통합한다. 두 개의 대규모 해상 시험(sea trial) 데이터셋에 대한 광범위한 실험 결과, ID(O)는 주성분 분석(principal component analysis)을 사용하는 기준 방법(baseline)에 비해 복원 정확도를 약 40% 향상시킨다. ID(O)를 적용한 TTT CSLAM은 매핑 정확도와 효율성 측면에서 무손실 압축과 동등한 성능을 달성하며, 다양한 환경에서 40% 패킷 손실과 큰 관성 항법 기반 사망 추정(dead reckoning) 드리프트 오류에도 강건하다. 우리가 아는 한, ID(O)는 심해측 데이터 압축을 위한 최초의 VQ 방법이며, ID(O)를 적용한 TTT CSLAM은 음향 모뎀을 통해 사용되는 수중 통신 네트워크 내에서 시험된 최초의 심해측 CSLAM이다.
Enhancing Navigational Scene Understanding using Integrated Language Models in Maritime Environments
Yeongha Shin, Jinwhan Kim
본 연구에서는 대규모 언어 모델(LLM)과 비전-언어 모델(VLM)을 활용하여 복잡한 해상 환경에서 향상된 항법 장면 이해를 가능하게 하는 혁신적인 알고리즘을 제안함으로써 자율적인 해상 상황 인식을 달성하고자 한다. 제안된 알고리즘은 해상 맥락에서 탐지된 객체에 대한 다양한 특징과 표식의 의미를 해석한다. 또한 이러한 정보를 레이더 및 카메라 데이터와 결합하여 안전 항행을 위한 비용(cost) 지도를 생성한다. 이 접근법은 두 가지 핵심 이점을 제공한다. (1) 장애물, 해상 표식, 규칙, 선박의 의도를 고려하여 항행 가능한 영역을 식별할 수 있고, (2) 추론에 기반한 의사결정 지원을 제공함으로써 인간 운영자와 지각(perception) 결과 사이의 정보 격차를 연결한다. 제안 접근법의 성능은 실제 환경 데이터셋을 사용하여 입증하였다. 자세한 정보는 다음에서 확인할 수 있다: https://yeongha-shin.github.io/vlmllm-maritime/