비전·언어 트랜스포머 기반 이미지 복원과 캡셔닝 생성형 연구

Vision-Language Transformer for Image Restoration and Captioning Generation

연구 내용

윈도우 기반 로컬-글로벌 어텐션을 통합하고 end-to-end feature 학습을 수행해 이미지 초해상도와 비디오·이미지 캡셔닝을 생성하는 연구

비전-언어 과제는 수용영역 확장, 특징 추출의 유효성, 생성 단계의 입력 정보 구성이 성능을 좌우합니다. 연구실은 로컬과 글로벌 컨텍스트를 함께 활용하기 위해 shifted-window attention과 sliding-window attention을 윈도우 통합 방식으로 결합한 이미지 초해상도 모델을 제안합니다. 또한 비전 트랜스포머 기반의 end-to-end 비디오 캡셔닝을 위해 feature extraction gates와 universal attention 구성으로 인코더 계층 정보와 시공간 관계를 보강합니다. 더불어 compositional intelligence 방식으로 사전학습 구성요소를 재사용하여 캡션 생성 학습 비용을 줄이면서 성능을 함께 개선하는 전략을 수행합니다. 텍스트 기반 이미지 생성 관련 특허도 동일한 생성형 흐름을 반영합니다.

관련 프로젝트

0건

연구 흐름

초기에는 이미지 캡셔닝에서 사전학습된 모듈을 조합하는 compositional intelligence 전략으로 학습 비용과 성능의 동시 개선 가능성을 검증했습니다. 이후 비전 트랜스포머 기반 비디오 캡셔닝으로 확장하여, 기존의 고정 특징 추출 방식이 제한하는 입력 학습을 end-to-end 학습 구조로 전환하는 방향으로 연구를 수행했습니다. 최근에는 초해상도에서 수용영역과 정보 활용의 균형을 맞추기 위해 로컬·글로벌 윈도우 어텐션을 통합한 Uniwin 모델을 제안하며, 입력 컨텍스트 조화가 성능 향상으로 이어짐을 보였습니다. 특허 성과는 텍스트 기반 생성 과정에서 입력 해석과 시각 결과 생성을 분리·통합하는 기술로 이어졌습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

이미지 초해상도 품질 개선
비디오 자동 캡션 생성
장면 설명 생성 및 문서화
텍스트 기반 이미지 생성 보조
시각 콘텐츠 접근성 강화
미디어 검수용 자동 요약
교육용 시각 자료 생성
로봇 시각-언어 인터페이스
멀티모달 데이터 라벨 보강
영상 품질 복원 파이프라인