본 연구에서는 장기 지평(multi-horizon) 다중과제 환경을 위한 문맥 내 정책 적응(in-context policy adaptation, ICPAD) 프레임워크를 제시하며, 교차 도메인 환경에서 확산 기반 기술(스킬) 학습 기법을 탐구한다. 이 프레임워크는 특히 모델 업데이트가 불가능하고 목표 도메인 데이터가 제한적인 엄격한 제약 하에서, 기술 기반 강화학습 정책을 다양한 목표 도메인에 대해 신속하게 적응할 수 있도록 한다. 구체적으로, 본 프레임워크는 교차 도메인 기술 확산(cross-domain skill diffusion) 방식을 활용하는데, 도메인 비특화(prototype) 기술과 도메인 기반(domain-grounded) 기술 어댑터를 교차 도메인 일관성 확산 과정으로 오프라인 데이터셋으로부터 함께 학습하며 효과적으로 결합한다. 도메인 비특화 기술은 장기 지평 정책의 공통 행동 표현을 위한 기본 요소(primitives)로 작용하여, 서로 다른 도메인을 연결하는 공용 언어(lingua franca) 역할을 한다. 또한 문맥 내 적응 성능을 향상시키기 위해, 확산 기반 기술 어댑터가 목표 도메인과 더 잘 정렬(alignment)되도록 유도하는 동적 도메인 프롬프팅(dynamic domain prompting) 방식을 개발한다. Metaworld에서의 로봇 조작과 CARLA에서의 자율주행 실험을 통해, 본 ICPAD 프레임워크가 환경 역학, 에이전트 신체(embodiment), 과제의 지평(horizon) 차이를 포함하는 다양한 교차 도메인 구성에서, 목표 도메인 데이터가 제한된 조건 하에서도 우수한 정책 적응 성능을 달성함을 보여준다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.