본 논문은 수학적 모델링과 파라미터 추정을 기반으로 하는 sim-to-real 강화학습(RL) 제어기를 사용하여, 회전형 이중-역진자(RDIP) 시스템을 위한 전이 제어 전략을 제안한다. 고해상도 센서 데이터를 이용해 핵심 물리 파라미터를 추정함으로써 시뮬레이션에 대한 모델 충실성을 보장한다. 그 결과로 도출된 수학적 모델은 훈련 환경으로 사용되며, 그 안에서 RL 에이전트는 다양한 초기 조건과 목표 평형 구성 사이의 전이를 수행하는 방법을 학습한다. 훈련 과정은 Truncated Quantile Critics(TQC) 알고리즘을 채택하고, 보상 함수는 시스템의 비선형적 특성을 반영하도록 특별히 설계된다. 학습된 정책은 추가 튜닝이나 캘리브레이션 없이 물리 하드웨어에 그대로 배치되며, TQC 기반 제어기는 네 가지 모든 평형 전이를 성공적으로 달성한다. 또한 제어기는 외란 하에서 견고한 복구 성질을 보이며, 고차원 비선형 시스템을 위한 신뢰성 있는 sim-to-real 제어 접근법으로서의 유효성을 입증한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.