Proprioception-conditioned Visual Scene Generation for Robot World Modeling via Contrastive Learning and Diffusion | 안혜민 교수 연구실 | EE

안혜민 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 0

·2025

Proprioception-conditioned Visual Scene Generation for Robot World Modeling via Contrastive Learning and Diffusion

Seong-Hyeon Kim, Hyemin Ahn

Journal of Institute of Control Robotics and Systems

초록

월드 모델은 로봇이 자신의 행동과 환경 동역학 간의 상호작용을 이해하고 예측할 수 있게 한다. 최근 확산(diffusion) 모델의 발전은 시뮬레이션 환경에서의 이미지 프레임 생성 품질을 크게 향상시켜, 보다 견고하고 일반화된 월드 모델 개발에 기여해 왔다. 그러나 이러한 확산 기반 월드 모델은 종종 키보드 명령과 같은 이산(discrete) 입력에 의존하며, 이는 연속적인 실제 로봇 제어에 대한 적용성을 제한한다. 이 한계를 해결하기 위해, 시각과 고유수용감각(proprioceptive) 양식(예: 관절 위치)을 공통 잠재 공간(shared latent space) 내에서 정렬하도록 대조학습(contrastive learning)을 통합하는 새로운 프레임워크를 제안한다. 이러한 공통 잠재 공간은 시각 장면과 고유수용감각 상태 간의 정확한 크로스-모달 예측을 가능하게 한다. 잠재 표현을 확산 모델과 결합함으로써, 우리의 월드 모델은 초기 시각 관측과 고유수용감각 상태를 모두 활용하여 장기 미래의 시각 장면을 생성할 수 있다. 실험 결과, 제안된 프레임워크는 목표 고유수용감각 데이터가 주어졌을 때 고충실도이며 장기적인 미래 시각 장면을 생성함을 보여주었다. 이 기능은 로봇이 생성된 이미지만을 기반으로 운동을 계획할 수 있게 하며, 상상(이미지 기반) 계획을 가능하게 한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

ProprioceptionComputer visionArtificial intelligenceComputer sciencePsychologyCognitive psychologyHuman–computer interactionNeuroscience

타입

article

IF / 인용수

- / 0

원문

https://doi.org/10.5302/j.icros.2025.25.0050

게재 연도

2025

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)