페어 트레이딩(pairs trading)은 함께 움직이는 두 종목 간의 단기 가격 차이(스프레드, spread)를 활용하는 투자 전략이다. 최근 딥 강화학습에 기반한 페어 트레이딩 방법들이 유망한 성과를 보였다. 이러한 방법들은 두 가지 접근으로 분류될 수 있다: (1) 매매 및 손절(stop-loss) 경계에 근거하여 간접적으로 매매 행동을 결정하는 방법과 (2) 스프레드를 기반으로 매매 행동을 직접적으로 결정하는 방법이다. 전자의 접근에서는 매매 경계가 손절 경계에 완전히 의존하므로 최적이 아니다. 후자의 접근에서는 손절 경계가 부재하여 중대한 손실의 위험이 존재한다. 두 접근의 단점을 극복하기 위해, 우리는 HDRL-Trader라는 페어 트레이딩용 하이브리드 딥 강화학습 방법을 제안하며, 이는 서로 독립적인 두 개의 강화학습 네트워크를 사용한다. 하나는 매매 행동을 결정하고, 다른 하나는 손절 경계를 결정한다. 또한 HDRL-Trader는 차원 축소(dimensionality reduction), 클러스터링(clustering), 회귀(regression), 행동 복제(behavior cloning), 우선순위 경험 재생(prioritized experience replay), 동적 지연(dynamic delay)과 같은 새로운 기법들을 그 아키텍처에 통합한다. HDRL-Trader의 성능은 페어 트레이딩을 위한 최신 강화학습 방법(P-DDQN, PTDQN, 및 P-Trader)과 비교된다. Standard & Poor’s 500 지수 내의 20개 주식 페어에 대한 실험 결과, HDRL-Trader는 평균 수익률 82.4%를 달성하였으며, 이는 두 번째로 우수한 방법보다 25.7%P 높고, 모든 주식 페어에 대해 유의하게 양(+)의 수익률을 산출하는 것으로 나타났다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.