기본 정보
연구 분야
프로젝트
논문
구성원
preprint|
인용수 0
·2025
In-Context Policy Adaptation via Cross-Domain Skill Diffusion
Minjong Yoo, Wookyung Kim, Honguk Woo
ArXiv.org
초록

본 연구에서는 장기 지평 다중 작업 환경을 대상으로 한 맥락 내 정책 적응(in-context policy adaptation, ICPAD) 프레임워크를 제안하며, 교차 도메인 환경에서 확산 기반 기술 학습(diffusion-based skill learning) 기법을 탐구한다. 이 프레임워크는 특히 모델 업데이트가 불허되고 표적 도메인 데이터가 제한적인 엄격한 제약 하에서도, 기술 기반 강화학습 정책을 다양한 표적 도메인에 신속히 적응할 수 있도록 한다. 구체적으로, 이 프레임워크는 교차 도메인 기술 확산(cross-domain skill diffusion) 방식을 활용하는데, 도메인 비의존적(prototype) 프로토타입 기술과 도메인 기반(domain-grounded) 기술 어댑터를 교차 도메인 일관성 확산 과정(cross-domain consistent diffusion processes)을 통해 오프라인 데이터셋으로부터 함께 학습한다. 프로토타입 기술은 장기 지평 정책의 공통 행태 표현에 대한 구성 요소(primitive)로 작용하며, 서로 다른 도메인을 연결하는 공용어(lingua franca) 역할을 한다. 또한 맥락 내 적응 성능을 향상시키기 위해, 확산 기반 기술 어댑터가 표적 도메인과 더 잘 정렬되도록 유도하는 동적 도메인 프롬프팅(dynamic domain prompting) 방식을 개발한다. Metaworld에서의 로봇 조작과 CARLA에서의 자율주행에 대한 실험을 통해, 환경 동역학, 에이전트 신체(embodiment), 작업 지평(task horizon)의 차이를 포함하는 다양한 교차 도메인 구성에서 제한된 표적 도메인 데이터 조건 하에 프레임워크가 우수한 정책 적응 성능을 달성함을 보인다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Adapter (computing)Adaptation (eye)Reinforcement learningTask (project management)Domain (mathematical analysis)Domain adaptation
타입
preprint
IF / 인용수
- / 0
게재 연도
2025

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.