단일 인코더 기반 시각-언어 지시 분할 및 의사감독 생성 연구

Single-encoder Vision-Language Referring Image Segmentation and Pseudo-supervision Generation

연구 내용

지시 표현과 픽셀 간 밀집 상호작용을 단일 인코더로 구현하고 의사감독을 생성해 효율적인 지시 분할 학습을 수행하는 연구

Referring Image Segmentation은 문장 지시를 픽셀 수준에서 정렬해야 하므로 시각-언어 간 밀집 상호작용이 핵심입니다. 본 연구는 듀얼 인코더 중심 접근의 계산 복잡도를 낮추기 위해 단일 인코더 구조에서 공용 self-attention을 활용하고, Shared FPN 및 Shared Mask Decoder로 경량 디코딩을 설계합니다. 또한 수작업 라벨 의존을 줄이기 위해 분할 파운데이션 모델과 이미지 캡션 모델을 결합한 pseudo supervisions 생성 프레임워크를 구축하고, distinctive caption sampling과 distinctiveness-based text filtering으로 지시 표현의 대상을 구분하도록 만듭니다.

관련 프로젝트

3건

연구 흐름

초기에는 단일 인코더로 두 양식의 정보를 입력부터 예측까지 연속적으로 결합하여 분할 결과에 필요한 미세 정렬을 얻는 기준 모델을 수립하였습니다. 이후에는 지시 분할 학습을 위해 필요한 마스크-표현 쌍을 수작업 없이 자동 생성하는 방향으로 확장하였습니다. 분할 생성과 캡션 생성의 단순 결합에서 발생하는 비구분 표현 문제를 분석하고, distinctive caption sampling과 텍스트 필터링을 통해 후보 표현을 지시 대상에 맞게 정제했습니다. 최근에는 미도메인 상황에서의 일반화와 semi-supervised 학습 활용 가능성을 함께 확인하는 궤적을 보였습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

지시 기반 이미지 편집 파이프라인
멀티모달 검색 및 문장-영역 매칭
라벨 비용 절감을 위한 자동 주석 생성
오픈월드 지시 분할 데이터 확장
시각 질문 응답의 근거 영역 추출
산업 도메인의 텍스트 기반 품질 결함 마스킹
설명 가능한 사용자 맞춤 라벨링 도구
게임·콘텐츠 제작용 문장 기반 마스킹
의료 영상에서 문장 지시 병변 분할
자율주행·로봇의 지시 목표 객체 분할