전해곤 교수 연구실
기본 정보
연구 분야
프로젝트
논문
구성원
article|
·
인용수 4
·2025
Social Reasoning-Aware Trajectory Prediction via Multimodal Language Model
Inhwan Bae, Junoh Lee, Hae‐Gon Jeon
IF 18.6 (2025) IEEE Transactions on Pattern Analysis and Machine Intelligence
초록

최근의 언어 모델 발전은 문맥 이해와 생성적 표상을 수행할 수 있는 능력을 보여주었다. 이러한 발전을 바탕으로, 우리는 VLMTraj라는 이름의 비전-언어 모델을 기반으로 한 새로운 멀티모달 궤적 예측(multimodal trajectory predictor)을 제안하며, 멀티모달 대규모 언어 모델의 사전 지식과 다양한 양식(modality) 정보 전반에 걸친 인간과 유사한 추론 능력을 충분히 활용한다. 본 모델의 핵심 아이디어는 궤적 예측 과제를 시각 질의응답(visual question answering) 형식으로 재구성하는 것이다. 역사적 정보를 문맥(context)으로 사용하고, 언어 모델에게 대화형 방식으로 예측을 수행하도록 지시한다. 구체적으로, 모든 입력을 자연어 스타일로 변환한다. 과거 궤적은 텍스트 프롬프트로 변환하고, 장면 이미지는 이미지 캡셔닝(image captioning)을 통해 기술한다. 또한 입력 이미지로부터 얻은 시각적 특징 역시 모달리티 인코더(modality encoder)와 커넥터(connector)를 통해 토큰으로 변환한다. 변환된 데이터는 이후 언어 모델에 사용될 수 있도록 포맷화된다. 다음으로, 장면 맥락과 보행자 간 사회적 관계와 같은 고수준 지식을 언어 모델이 이해하고 추론하도록 유도하기 위해, 보조적인 멀티태스크 질의응답(auxiliary multi-task question and answers)을 도입한다. 학습 단계에서는 먼저 프롬프트 데이터를 사용하여 수치 토크나이저(numerical tokenizer)를 최적화함으로써 정수와 소수 부분을 효과적으로 분리하여, 언어 모델에서 연속된 수들 간의 상관관계를 포착할 수 있도록 한다. 이후 모든 시각 질의응답 프롬프트를 사용하여 언어 모델을 학습한다. 모델 추론 시에는 빔서치(beam-search) 기반 최빈도(most-likely) 예측과 온도(temperature) 기반 멀티모달 생성(multimodal generation)을 통해 결정론적 및 확률론적 예측 방법을 모두 구현한다. VLMTraj는 언어 기반 모델이 강력한 보행자 궤적 예측기(pedestrian trajectory predictor)가 될 수 있음을 입증하며, 기존의 수치 기반 예측 방법을 능가한다. 광범위한 실험을 통해 VLMTraj는 사회적 관계를 성공적으로 이해하고, 공공 보행자 궤적 예측 벤치마크에서 멀티모달 미래를 정확하게 외삽(extrapolate)할 수 있음을 보여준다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Computer scienceClosed captioningLanguage modelArtificial intelligenceContext (archaeology)Natural language processingQuestion answeringGenerative modelTask (project management)Natural language
타입
article
IF / 인용수
18.6 / 4
게재 연도
2025

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.