Lightweight Vision Encoding with Single-Head Vision Transformers and Dynamic Residual Convolutions
연구 내용
패치 스템과 헤드 구성을 메모리 효율적으로 재설계하고, 커널 공간에서 동적 잔차 합성곱과 결합해 지연과 계산량을 줄이면서도 비전 표현력을 유지하는 경량 비전 인코딩 연구
본 연구는 리소스 제약 환경에서도 동작하는 비전 트랜스포머 구조 설계를 목표로 합니다. 매크로 수준에서는 larger-stride patchify stem을 적용해 초기 토큰 표현의 공간 중복을 줄이고, 마이크로 수준에서는 early stage의 주의 연산을 합성곱으로 대체할 수 있는 가능성을 바탕으로 구조적 효율화를 수행합니다. 또한 late stage의 다중 헤드 중 중복 계산을 줄이기 위해 단일 헤드 attention 모듈을 도입하고 전역 정보와 국소 정보를 병렬 결합해 성능을 보존합니다. 더불어 kernel space에서 입력 적응형 로컬 특징을 생성하는 Dynamic Residual Convolution과 이를 검증하기 위한 Dynamic Mobile-Former를 통해 정확도와 연산량의 균형을 확보하는 방법을 함께 제시합니다.
관련 연구 성과
관련 논문
0편
관련 특허
0건
관련 프로젝트
0건
연구 흐름
초기에는 비전 트랜스포머의 설계 단계 전반에서 발생하는 계산 중복을 관찰하고, larger-stride patchify stem과 매크로 구조 조정을 통해 메모리 접근 비용을 줄이는 방향으로 연구를 수행했습니다. 이후 attention 레이어의 대체 가능성과 다중 헤드의 계산 중복을 근거로 단일 헤드 attention 모듈을 구성하여 전역·국소 정보 통합 방식을 확립했습니다. 동시에 트랜스포머 중심의 효율화 결과를 합성곱 영역으로 확장하기 위해 kernel space 기반의 Dynamic Residual Convolution을 제안하고 최적화 난이도와 표현력을 함께 개선하는 실험을 진행했습니다. 2024년 이후로는 효율 인코더 모듈을 다양한 비전 태스크에 적용 가능한 형태로 정리하는 흐름을 보이고 있습니다.
활용 가능성
활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.