Sim-to-Real 강화학습 기반 비선형 전이 제어

Sim-to-Real Reinforcement Learning for Nonlinear Transition Control

연구 내용

수학적 모델과 파라미터 추정을 기반으로 강화학습 정책을 학습하고, 물리 장치에 직접 적용해 비선형 전이를 안정적으로 수행하는 제어 연구

로터리 이중 역진자(RDIP)처럼 다자유도 비선형 시스템의 전이 동작을 목표로 수학적 모델링과 파라미터 추정 기반의 sim-to-real 절차를 구축합니다. 고해상도 센서 데이터로 물리 파라미터를 추정해 시뮬레이션 정합성을 높이고, 해당 모델을 강화학습 학습 환경으로 활용합니다. 학습은 TQC(Truncated Quantile Critics)로 수행하며 비선형 특성을 반영한 보상 설계를 통해 목표 평형 전이를 학습합니다. 학습된 정책은 추가 튜닝 없이 하드웨어에 직접 배치하고, 외란 조건에서의 복원 성능을 검증하는 데 차별성이 있습니다.

관련 프로젝트

0건

연구 흐름

초기에는 RDIP의 운동학·동역학 기반 수학적 모델을 구성하고, 센서 데이터를 이용해 핵심 물리 파라미터를 추정하여 시뮬레이션의 모델 정합성을 확보했습니다. 이후 학습 환경으로 동일 모델을 사용하고, 강화학습 에이전트가 다양한 초기 상태에서 목표 평형으로 전이하도록 TQC 학습과 비선형 특성 반영 보상 함수를 적용했습니다. 2025년에는 학습된 정책을 하드웨어에 직접 적용해 4가지 평형 전이를 달성하고, 외란 하에서 복원 동작을 확인하는 결과로 마무리했습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

시뮬레이션 기반 제어 정책 자동 생성
센서 기반 파라미터 추정 파이프라인
다자유도 로봇 자세 전이 제어
비선형 동특성 보상 전이 제어기
추가 튜닝 없이 실장 가능한 제어 정책
외란 복원 성능을 갖춘 제어 전략
전이 이벤트 기반 안전 제어 로직
고차원 비선형 시스템 제어 프레임워크
물리 하드웨어 직결 학습 검증 체계
정확한 모델 정합을 통한 학습 안정화