DGIST Computer Vision Lab
컴퓨터공학과 임성훈
DGIST Computer Vision Lab은 3차원 인지, 재구성, 멀티모달 인공지능, 도메인 일반화 등 첨단 컴퓨터 비전 및 인공지능 분야를 선도하는 연구실입니다. 본 연구실은 단안 및 다중 카메라, 라이다 등 다양한 센서 데이터를 활용하여 실제 환경의 3D 정보를 정확하게 추정하고, 복잡한 환경에서도 신뢰성 높은 인지 및 재구성 기술을 개발하고 있습니다. 이러한 연구는 자율주행, 로봇 비전, AR/VR, 재난 대응 등 다양한 응용 분야에서 핵심적인 역할을 하고 있습니다.
특히, Vision-Language-Action(VLA) 모델, Diffusion 기반 모션 플래닝, 멀티모달 AI, 3D 센서 융합 등 다양한 첨단 기술을 바탕으로, 복잡한 환경에서의 인지, 예측, 행동 결정까지 아우르는 통합적 인공지능 시스템을 연구합니다. 이를 통해, 단일 센서의 한계를 극복하고, 다양한 환경 변화와 노이즈에 강인한 인지 및 판단 능력을 확보하고 있습니다.
또한, 본 연구실은 도메인 일반화 및 적응형 인공지능 기술 개발에도 주력하고 있습니다. 실제 환경에서는 센서 종류, 조명, 날씨, 배경 등 다양한 요인에 의해 데이터 분포가 달라질 수 있기 때문에, 준지도 학습, 지식 증류, 도메인 적응, 데이터 증강 등 다양한 방법론을 활용하여 새로운 환경에서도 높은 성능을 유지하는 AI 모델을 개발하고 있습니다. 대규모 가상 데이터셋 구축 및 활용, 실제 산업 현장과의 협력 프로젝트를 통해 실용성과 혁신성을 동시에 추구하고 있습니다.
연구실은 국내외 유수 학회 및 저널에 다수의 논문을 발표하며, 다양한 특허와 산학 협력 프로젝트를 통해 연구 성과를 산업 현장에 적극적으로 이전하고 있습니다. 또한, AI Star Fellowship, InnoCORE 등 정부 및 산업체의 대형 연구비 지원을 받아, 미래 지능형 시스템과 인간-기계 상호작용의 핵심 기술을 지속적으로 개발하고 있습니다.
DGIST Computer Vision Lab은 첨단 컴퓨터 비전 및 인공지능 분야에서 국내외적으로 인정받는 연구실로, 3D 인지 및 재구성, 멀티모달 AI, 도메인 일반화 등 다양한 연구를 통해 미래 사회의 혁신을 이끌고 있습니다. 앞으로도 본 연구실은 새로운 기술 개발과 실용화에 앞장서며, 인공지능 기반의 스마트한 세상을 실현하는 데 기여할 것입니다.
Multi-Sensor Fusion
Computer Vision
Deep Learning
3D 인지 및 재구성 기술
DGIST Computer Vision Lab은 3차원 인지 및 재구성 기술을 핵심 연구 분야로 삼고 있습니다. 본 연구실은 단안 및 다중 카메라, 라이다 등 다양한 센서 데이터를 활용하여 실제 환경의 3D 정보를 정확하게 추정하고 재구성하는 알고리즘을 개발합니다. 특히, 작은 움직임이나 비정형 환경에서도 높은 정밀도의 깊이 추정과 구조 복원을 실현하기 위한 신경망 기반의 방법론, 기하학적 모델링, 그리고 센서 융합 기술을 적극적으로 도입하고 있습니다.
이러한 연구는 자율주행, 로봇 비전, AR/VR, 재난 대응 등 다양한 응용 분야에서 필수적인 기반 기술로 활용됩니다. 예를 들어, 단안 카메라 기반의 깊이 추정, 라이다 포인트 클라우드의 도메인 적응, 그리고 다양한 환경 변화에 강인한 3D 재구성 기술은 실제 산업 현장과 사회적 요구에 부합하는 혁신적인 솔루션을 제공합니다. 또한, 본 연구실은 실제 환경에서의 데이터 부족 문제를 극복하기 위해 대규모 가상 데이터셋 구축 및 활용에도 앞장서고 있습니다.
연구실의 다수의 논문과 특허, 그리고 산업체와의 협력 프로젝트를 통해, 3D 인지 및 재구성 기술은 지속적으로 고도화되고 있습니다. 이러한 연구 성과는 국제적으로도 높은 평가를 받고 있으며, 미래의 지능형 시스템과 인간-기계 상호작용의 핵심을 이루는 기반 기술로 자리매김하고 있습니다.
멀티모달 인공지능 및 센서 융합
본 연구실은 비전, 언어, 햅틱 등 다양한 센서 데이터를 통합적으로 처리하는 멀티모달 인공지능 기술 개발에 주력하고 있습니다. Vision-Language-Action(VLA) 모델, Diffusion 기반 모션 플래닝, 3D 센서 융합 등 첨단 AI 기술을 활용하여, 복잡한 환경에서의 인지, 예측, 행동 결정까지 아우르는 통합적 인공지능 시스템을 연구합니다. 이러한 멀티모달 AI는 단일 센서의 한계를 극복하고, 다양한 환경 변화와 노이즈에 강인한 인지 및 판단 능력을 제공합니다.
특히, 본 연구실은 센서 융합을 통한 3D 인식, 예측, 그리고 행동 제어까지의 전 과정을 포괄하는 연구를 수행합니다. 예를 들어, 라이다와 카메라 데이터를 결합하여 자율주행 차량의 환경 인식 정확도를 높이고, 비전-언어 모델을 활용한 동적 환경 내비게이션, 그리고 햅틱 정보를 포함한 로봇 제어 등 다양한 응용 분야에 적용하고 있습니다. 이러한 연구는 실제 산업 및 사회적 문제 해결에 직접적으로 기여하고 있습니다.
연구실은 멀티모달 AI의 신뢰성, 확장성, 실시간성 확보를 위한 새로운 알고리즘과 시스템 구조를 지속적으로 개발하고 있습니다. 이를 통해, 미래의 지능형 로봇, 자율주행, 스마트 시티 등 다양한 분야에서 혁신적인 인공지능 솔루션을 제공하고 있습니다.
도메인 일반화 및 적응형 인공지능
DGIST Computer Vision Lab은 다양한 환경과 도메인 변화에 강인한 인공지능 모델 개발에 집중하고 있습니다. 실제 환경에서는 센서 종류, 조명, 날씨, 배경 등 다양한 요인에 의해 데이터 분포가 크게 달라질 수 있기 때문에, 도메인 일반화와 적응 기술은 매우 중요한 연구 주제입니다. 본 연구실은 준지도 학습, 지식 증류, 도메인 적응, 데이터 증강 등 다양한 방법론을 활용하여, 새로운 환경에서도 높은 성능을 유지하는 인공지능 모델을 개발하고 있습니다.
특히, 라이다 기반 3D 객체 탐지, 단안 카메라 기반 깊이 추정, 비디오 객체 분할 등에서 도메인 적응 기술을 적용하여, 실제 산업 현장과 다양한 응용 분야에서의 실용성을 높이고 있습니다. 또한, 대규모 가상 데이터셋을 활용한 도메인 일반화 연구를 통해, 실제 데이터가 부족한 상황에서도 신뢰성 높은 AI 모델을 구축할 수 있도록 지원합니다.
이러한 연구는 자율주행, 로봇 비전, 보안, 산업 자동화 등 다양한 분야에서의 실질적인 문제 해결에 기여하고 있습니다. 연구실의 논문, 특허, 그리고 산학 협력 프로젝트를 통해, 도메인 일반화 및 적응형 인공지능 기술은 국내외에서 높은 평가를 받고 있습니다.
1
Semantic-Enhanced Monocular Depth Estimation via Fusion and Distillation of Foundation Models
Sanggyun Ma*, Wonjoon Choi*, Jihun Park, Jaeyeul Kim, Sunghoon Im†
IEEE International Conference on Computer Vision Workshop (ICCVw), 2025
2
CAVIS: Context-Aware Video Instance Segmentation
Seunghun Lee*, Jiwan Seo*, Kiljoon Han, Minwoo Choi, Sunghoon Im†
IEEE International Conference on Computer Vision (ICCV), 2025
3
Latest Object Memory Management for Temporally Consistent Video Instance Segmentation
Seunghun Lee, Jiwan Seo, Minwoo Choi, Kiljoon Han, Jaehoon Jeong, Zane Durante, Ehsan Adeli†, Sang Hyun Park, Sunghoon Im†
IEEE International Conference on Computer Vision (ICCV), 2025
3
실시간 카메라 기반 지속가능한 Detection 소프트웨어 개발