RnDCircle Logo
arrow left icon

Visual AI Lab

경희대학교 컴퓨터공학부

김정욱 교수

Multimodal Pedestrian Detection

Audio-Visual Integration

3D Object Detection

Visual AI Lab

컴퓨터공학부 김정욱

Visual AI Lab은 컴퓨터 비전과 멀티모달 인공지능 분야에서 세계적인 수준의 연구를 수행하는 연구실입니다. 본 연구실은 영상, 오디오, 텍스트, 열화상 등 다양한 센서 데이터를 통합적으로 활용하여 인간과 유사한 인지 및 인식 능력을 갖춘 인공지능 시스템 개발을 목표로 하고 있습니다. 특히, 2D/3D 객체 검출, 비디오 객체 검출, 세분화, 멀티모달 학습, 오디오-비주얼-텍스트 융합 등 첨단 기술을 선도적으로 연구하고 있습니다. 연구실은 자율주행, 로봇 비전, 스마트 시티, 의료 영상 분석 등 실제 산업 현장에서 요구되는 고난이도 문제 해결에 집중하고 있습니다. 예를 들어, 단일 카메라 기반의 3D 객체 검출, 대칭 지식 및 스테레오 비전 메모리 활용, 블랙아웃 상황에서의 강인한 보행자 검출, 다중 스펙트럼 보행자 인식 등 다양한 환경과 조건에서 신뢰성 있게 동작하는 강인한 인공지능 모델을 개발하고 있습니다. 또한, 반지도 학습, 불확실성 기반 피처 융합, 크로스모달 지식 증류 등 최신 기법을 도입하여 현실적인 문제를 해결하고 있습니다. 비디오 이해 및 자동 캡셔닝 분야에서도 활발한 연구가 이루어지고 있습니다. 순간 검색, 하이라이트 검출, 변화 캡셔닝, 밀집 비디오 캡셔닝 등 비디오 내 의미 있는 순간을 자동으로 탐지하고 설명하는 기술을 개발하여, 미디어 분석, 영상 요약, 자동 보고서 생성 등 다양한 응용 분야에 적용하고 있습니다. 대형 비전-언어 모델, 키워드 추출 기반 탐지, 멀티모달 정보 융합 등 최신 인공지능 기법을 적극적으로 활용하여, 복잡한 상황에서도 정확하고 신뢰성 있는 비디오 분석을 실현하고 있습니다. 연구실은 또한 오디오-비주얼 기반의 객체 검출, 소리 기반의 객체 위치 추정, 오디오-비주얼-텍스트 융합을 통한 질의응답 및 상황 인식 등 다양한 멀티센서 융합 기술을 연구하고 있습니다. 이러한 연구는 미래의 지능형 시스템이 다양한 센서 정보를 통합적으로 활용하여 더욱 정확하고 신뢰성 있는 인식 및 판단을 내릴 수 있도록 하는 데 중요한 역할을 합니다. Visual AI Lab은 국내외 유수 학회 및 저널에 다수의 논문을 게재하며, 산업체 및 공공기관과의 협력 연구, 특허 출원, 산학 프로젝트 등 다양한 활동을 통해 연구 성과를 사회에 환원하고 있습니다. 앞으로도 본 연구실은 컴퓨터 비전 및 멀티모달 인공지능 분야의 혁신을 선도하며, 인공지능 기술의 실질적 발전과 사회적 가치 창출에 기여할 것입니다.

Multimodal Pedestrian Detection
Audio-Visual Integration
3D Object Detection
컴퓨터 비전 및 멀티모달 학습
본 연구실은 컴퓨터 비전 분야의 첨단 기술 개발에 주력하고 있습니다. 특히, 영상 내에서의 객체 검출, 분할, 인식 등 시각 정보처리의 핵심 문제를 다루며, 2D 및 3D 객체 검출, 비디오 객체 검출, 세분화 등 다양한 응용 분야에 대한 연구를 진행하고 있습니다. 이러한 연구는 자율주행, 로봇 비전, 의료 영상 분석 등 실제 산업 현장에서 요구되는 고난이도 문제 해결에 직접적으로 기여하고 있습니다. 최근에는 멀티모달 학습을 통해 시각 정보뿐만 아니라 오디오, 텍스트, 열화상 등 다양한 센서 데이터를 통합적으로 활용하는 방법론을 개발하고 있습니다. 예를 들어, RGB와 IR(적외선) 데이터를 결합한 다중 스펙트럼 객체 검출, 오디오-비주얼-텍스트 융합 모델, 그리고 블랙아웃 상황에서 단일 모달만으로도 강인한 인식이 가능한 모델 등 다양한 멀티모달 AI 기술을 선도적으로 연구하고 있습니다. 이러한 접근은 실제 환경에서 발생할 수 있는 데이터 결손, 노이즈, 센서 오류 등 다양한 문제에 대한 강인성을 확보하는 데 중요한 역할을 합니다. 연구실은 또한 순간 검색(Moment Retrieval), 하이라이트 검출(Highlight Detection), 변화 캡셔닝(Change Captioning), 밀집 비디오 캡셔닝(Dense Video Captioning) 등 비디오 내 의미 있는 순간을 자동으로 탐지하고 설명하는 기술 개발에도 집중하고 있습니다. 이와 같은 연구는 미디어 분석, 영상 요약, 자동 보고서 생성 등 다양한 실세계 응용에 활용될 수 있으며, 인공지능 기반의 지능형 미디어 처리의 새로운 패러다임을 제시합니다.
강인한 객체 검출 및 다중 스펙트럼 보행자 인식
연구실은 다양한 환경과 조건에서 신뢰성 있게 동작하는 강인한 객체 검출 기술 개발에 중점을 두고 있습니다. 특히, 3D 객체 검출 분야에서는 단일 카메라(모노큘러) 기반의 3D 객체 검출, 대칭 지식 기반의 3D 객체 검출, 스테레오 비전 메모리 활용 등 혁신적인 방법론을 제안하고 있습니다. 이러한 연구는 자율주행차, 로봇, 스마트 시티 등에서 실제로 활용될 수 있으며, 센서의 한계나 환경적 제약에도 불구하고 높은 정확도를 유지할 수 있는 기술적 토대를 마련합니다. 또한, 다중 스펙트럼 보행자 검출(Multispectral Pedestrian Detection)은 가시광선과 열화상 데이터를 결합하여 야간, 악천후, 블랙아웃 등 다양한 상황에서도 보행자를 정확하게 인식할 수 있도록 하는 연구입니다. 불완전한 데이터, 라벨 부족, 센서 미스매치 등 현실적인 문제를 해결하기 위해 반지도 학습, 불확실성 기반 피처 융합, 크로스모달 지식 증류 등 다양한 첨단 기법을 도입하고 있습니다. 실제로, 블랙아웃 상황에서 단일 모달만으로도 다중 모달의 정보를 예측하여 강인한 인식이 가능한 모델을 개발함으로써, 실환경에서의 활용 가능성을 높이고 있습니다. 이와 더불어, 오디오-비주얼 기반의 객체 검출, 소리 기반의 객체 위치 추정, 오디오-비주얼-텍스트 융합을 통한 질의응답 및 상황 인식 등 다양한 멀티센서 융합 기술도 활발히 연구되고 있습니다. 이러한 연구는 미래의 지능형 시스템이 다양한 센서 정보를 통합적으로 활용하여 더욱 정확하고 신뢰성 있는 인식 및 판단을 내릴 수 있도록 하는 데 중요한 역할을 합니다.
비디오 이해 및 자동 캡셔닝
비디오 이해와 자동 캡셔닝 분야는 본 연구실의 또 다른 핵심 연구 영역입니다. 비디오 내에서 의미 있는 순간을 자동으로 탐지하고, 해당 순간에 대한 자연어 설명을 생성하는 기술은 미디어 분석, 영상 요약, 자동 보고서 생성 등 다양한 응용 분야에서 필수적입니다. 연구실은 순간 검색(Moment Retrieval), 하이라이트 검출(Highlight Detection), 변화 캡셔닝(Change Captioning), 밀집 비디오 캡셔닝(Dense Video Captioning) 등 다양한 비디오 분석 기술을 개발하고 있습니다. 특히, 대형 비전-언어 모델을 활용한 캡션 생성, 키워드 추출 기반의 순간 탐지, 멀티모달 정보 융합을 통한 비디오 이해 등 최신 인공지능 기법을 적극적으로 도입하고 있습니다. 이러한 연구는 영상 내 복잡한 상황을 정밀하게 분석하고, 사용자가 원하는 정보를 신속하게 제공할 수 있도록 하는 데 중점을 두고 있습니다. 또한, 노이즈 환경이나 정보 결손 상황에서도 안정적으로 동작할 수 있는 강인한 비디오 분석 모델 개발에도 힘쓰고 있습니다. 이와 같은 비디오 이해 및 자동 캡셔닝 기술은 방송, 미디어, 보안, 자율주행 등 다양한 산업 분야에서 활용될 수 있으며, 인공지능 기반의 지능형 미디어 처리와 자동화된 정보 제공의 새로운 가능성을 열어가고 있습니다.
1
Video Moment Retrieval and Highlight Detection via Effective Fusion of Captions Generated by Vision-Language Models
Yu Eun Lee, Jung Uk Kim
The Korean Institute of Broadcast and Media Engineers (한국방송·미디어공학회), 2025
2
The Necessity of Training Strategies for Monocular 3D Object Detection under Adverse Weather Conditions
Jun young Jung, Seok Won Kim, Jung Uk Kim
The Korean Institute of Broadcast and Media Engineers (한국방송·미디어공학회), 2025
3
A Semi-Supervised Learning Framework for Rain-Robust Multispectral Pedestrian Detection with Limited Labels
Chan Lee, Seungho Shin, Jung Uk Kim
The Korean Institute of Broadcast and Media Engineers (한국방송·미디어공학회), 2025
1
컴퓨터 비전 기반 AI 다리 교정 분석 및 재활 프로그램 연동 솔루션 개발(1/2)
중소벤처기업부
2024년 08월 ~ 2025년 07월