From Street to Orbit: Training-Free Cross-View Retrieval via Location Semantics and LLM Guidance | 이재협 교수 연구실 | 경북대학교 컴퓨터학부

|이재협 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Preprint|

인용수 0

·2025

From Street to Orbit: Training-Free Cross-View Retrieval via Location Semantics and LLM Guidance

Jeongho Min, Dongyoung Kim, Jaehyup Lee

ArXiv.org

초록

교차 시점 이미지 검색, 특히 거리-위성 매칭은 자율주행, 도시 계획, 그리고 GPS가 부재한 환경에서의 위치기반 서비스와 같은 응용에 있어 핵심적인 과제이다. 그러나 기존의 방법들은 종종 엄선된 데이터셋에 대한 지도학습을 필요로 하며, 파노라마 또는 UAV 기반 이미지에 의존함으로써 실제 환경에서의 배치를 제한받는다. 본 논문에서는 사전학습된 비전 인코더와 대규모 언어모델(LLM)을 활용하면서 추가 학습을 요구하지 않는, 단순하면서도 효과적인 교차 시점 이미지 검색 프레임워크를 제시한다. 단안 거리-뷰 이미지를 입력으로 할 때, 우리의 방법은 웹 기반 이미지 검색과 LLM 기반 위치 추론을 통해 지리적 단서를 추출하고, 지오코딩 API를 통해 위성 질의를 생성한 뒤, PCA 기반 백히닝(feature whitening)으로 특징을 정제한 사전학습 비전 인코더(예: DINOv2)를 사용하여 일치하는 타일을 검색한다. 정답 기반의 감독(supervision)이나 파인튜닝을 전혀 사용하지 않음에도 불구하고, 제안한 방법은 제로샷 설정 하에서 벤치마크 데이터셋에서 기존 학습 기반 접근법을 능가한다. 또한 본 파이프라인은 의미적으로 정렬된 거리-위성 데이터셋의 자동 구축을 가능하게 하며, 이는 수동 주석 작업에 대한 확장 가능하고 비용 효율적인 대안이 된다. 모든 소스 코드는 https://jeonghomin.github.io/street2orbit.github.io/ 에서 공개될 예정이다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Pipeline (software)Semantics (computer science)GeocodingEncoderBenchmark (surveying)Feature (linguistics)ScalabilityTask (project management)Matching (statistics)Image retrieval

타입

Preprint

IF / 인용수

- / 0

원문

http://arxiv.org/abs/2511.09820

게재 연도

2025