본 논문은 기상( wake ) 유도 어뢰(wake homing torpedo) 조정을 위한 새로운 계층적 심층 강화학습(Hierarchical Deep Reinforcement Learning, HRL) 프레임워크를 제안하며, 고수준 정책과 보상 형상화(reward shaping) 함수를 설계하기 위해 이산 사건 시스템 명세(Discrete Event System Specification, DEVS) 형식을 적용한다. 기상 유도 어뢰 조정은 어뢰가 표적 함정의 기상 궤적을 추종하도록 하기 위한 항로 명령(course commands)을 생성한다. 표적 함정이 접근 중인 어뢰를 회피하는 경우, 기상 궤적은 곡선 형태가 되며, 기상 탐지 센서의 협소한 탐지 범위로 인해 어뢰가 종종 궤적 추적을 상실한다. 이는 특히 소음이 있는 환경에서 어뢰가 기상 궤적에서 이탈했다가 다시 진입하는 상황을 포함하여, 표적 함정을 일관되게 추적하기 위한 정교한 알고리즘을 요구한다. 휴리스틱 알고리즘은 일반적인 기상 궤적을 처리할 수 있으나, 알려지지 않은 궤적에 대해 강건한 해법을 개발하는 것은 여전히 중요한 과제로 남아 있다. 이를 해결하기 위해 본 연구는 새로운 강화학습을 적용하여 유도 로직을 개발하고, 그 성능을 기존의 알고리즘 기반 방법과 비교한다. 제안한 접근법의 성능과 효용성은 수치 시뮬레이션을 통해 입증한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.