비전·언어 지도 기반 다중 에이전트 궤적 예측 연구

Vision-language guided multi-agent trajectory prediction

연구 내용

주변 카메라 비전 단서와 텍스트 설명 감독을 결합해 다중 도로 참여자의 미래 궤적을 실시간에 가깝게 예측하는 연구

본 연구는 자율주행에서 다른 도로 참여자의 미래 궤적을 예측하는 과정에 텍스트-언어 감독과 주변 시각 단서를 함께 활용하는 접근을 수행합니다. 주변 보기 카메라로부터 얻는 시각 신호를 모델 입력에 포함해 기존 방식에서 누락되기 쉬운 시선과 제스처, 도로 상황, 방향지시 등 단서를 반영합니다. 또한 비전-언어 모델이 생성한 텍스트 설명을 대규모 언어 모델로 정제하여 학습 감독으로 사용함으로써 관측과 학습 목표의 정합성을 높입니다. 아울러 데이터셋 확장을 통해 장면별 풍부한 텍스트 어노테이션을 제공하는 방향을 병행합니다.

관련 프로젝트

2건

연구 흐름

초기 연구는 주변 카메라 비전 입력을 궤적 예측 모델에 통합하고, 단순 추적 기반 입력만으로는 포착하기 어려운 장면 단서를 모델이 활용하도록 만드는 데 집중했습니다. 이후에는 비전-언어 모델로 생성한 텍스트를 대규모 언어 모델로 정제해 학습 감독의 품질을 높이는 방식으로 확장했습니다. 최근에는 텍스트 기반 감독과 시각 단서가 성능에 기여하는 메커니즘을 정성적으로 분석하고, 장면별 텍스트 어노테이션을 포함하는 데이터셋을 구성해 재현 가능성을 강화하는 연구를 수행합니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

다중 에이전트 궤적 예측
주변 시각 단서 기반 주행 의도 추정
비전-언어 감독을 활용한 예측 학습
장면 텍스트 어노테이션 데이터셋
실시간 예측 모듈 설계
자율주행 위험도 평가용 입력 확장
설명 가능한 자율주행 보조
사용자 조언 내재화와 결합
도로 상황 인지 기반 경로 계획 입력
차량-인프라 상호작용 시나리오 분석