비전-언어 정렬 기반 OOD 세분화와 분자 그래프 표현 학습

Vision-Language Alignment for OOD Segmentation and Multimodal Graph-SMILES for Molecular Understanding

연구 내용

비전-언어 공간 정렬을 활용해 미지 분포 OOD 세분화의 강건성을 높이고, 그래프-문자 기반 표현으로 분자 이해 성능을 개선하는 연구

실환경 자율주행과 과학 데이터 분석에서는 학습 분포 밖 객체가 등장하거나 분자 구조가 복잡하게 표현됩니다. 본 연구는 비전-언어 공간에서 텍스트 정보를 정렬 신호로 활용하여, in-distribution과 의미적 거리가 다른 OOD 프롬프트를 구성하고 OOD Semantic Augmentation으로 표현 다양성을 유도하는 방식의 OOD 세분화를 수행합니다. 또한 분자 도메인에서는 Graph-SMILES 표현을 통해 그래프 인코더의 멀티모달 사전학습을 적용하여 분자 이해의 입력 표현을 강화합니다. 두 축 모두 멀티모달 사전학습과 표현 설계를 핵심으로 합니다.

관련 프로젝트

6건

연구 흐름

초기에는 vision-language 공간을 활용해 OOD 세분화에서 필요한 의미적 다양성을 학습 과정에 반영하는 접근을 설정합니다. 구체적으로는 의미 거리 기반 OOD prompts와 의미 기반 augmentation을 조합하여 pixel-level과 object-level 강건성을 검증하는 방향으로 2025년 연구를 수행합니다. 동시에 분자 이해에서는 멀티모달 데이터로 사전학습된 그래프 인코더로 교체하는 구성을 통해, 단일모달 사전학습 대비 갱신 부담을 줄이며 성능 변화를 관찰합니다. 2025년 성과를 중심으로 멀티모달 표현 설계의 공통 원리를 정리합니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

OOD 세분화 강건성 확보
비전-언어 기반 안전 인식
의미 거리 기반 프롬프트 생성
멀티모달 사전학습 적응
분자 그래프-문자 이해 강화
LLM 기반 도메인 지식 통합
과학 데이터 표현학습
멀티모달 임베딩 정렬
도메인 전이 성능 향상
분석 파이프라인 구축