모션 기반 지시 이미지 분할 및 텍스트 주도 영상 편집

Motion-aware Referring Image Segmentation and Text-guided Video/Image Editing

연구 내용

지시 문장에 포함된 동작 표현을 활용해 모션 쿼리 성능을 높이고, 이미지-텍스트 임베딩을 융합한 방사형 대조학습으로 referring image segmentation을 개선하는 연구

Referring Image Segmentation에서 동작 관련 질의가 외형 기반 질의 대비 성능 저하를 보인다는 관찰을 출발점으로, 추가 주석 없이 캡션에서 모션 중심 구문을 추출하는 데이터 증강 절차를 설계합니다. 동일한 객체가 문맥에 따라 다르게 기술된다는 점을 반영하기 위해 단일 모달 임베딩이 아닌 융합된 이미지-텍스트 임베딩에 Multimodal Radial Contrastive Learning을 적용합니다. 또한 모션 중심 질의에 초점을 둔 테스트 분할과, 동작에 의해 객체가 구분되는 벤치마크를 통해 평가를 구조화합니다. 이러한 기술은 포즈와 체형을 고려한 가상 의상 시착 및 텍스트 기반 영상 편집의 입력-출력 정렬 요구와 결합됩니다.

관련 프로젝트

1건

연구 흐름

2026년에는 모션 관련 질의에서 underperformance가 발생한다는 문제를 정량적 평가 설계와 함께 확인하고, 캡션에서 모션 중심 구문을 추출하는 효율적 데이터 증강으로 학습 신호를 확장했습니다. 이어서 컨텍스트에 따라 객체 표현이 달라지는 현상을 고려하여, 융합 임베딩 기반의 MRaCL로 이미지-텍스트 대응을 강화하는 방식을 제안했습니다. 동시에 모션 중심 테스트 스플릿과 M-Bench 벤치마크를 도입해 모델이 동작 기반 단서를 실제로 사용하는지 검증 가능하게 했습니다. 이 방향은 2024년부터 수행 중인 텍스트 기반 이미지·비디오 편집 기술 개발 및 응용, 그리고 포즈·체형 조건을 반영하는 가상 의상 시착 특허 실적과 맞닿아 있습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

동작 기반 지시 분할 모델
모션 중심 질의 데이터셋 확장
이미지-텍스트 접지(grounding) 고도화
문장 기반 객체 추적
AR/VR용 장면 이해 모듈
텍스트 주도 영상 편집 보조
포즈 인지 기반 합성 파이프라인
동작 단서 기반 검색 엔진
가상 의상 시착 고정밀 영역 추출
세밀한 분할을 활용한 비디오 합성