기본 정보

Visual AI Lab

경희대학교 컴퓨터공학부 김정욱 교수

Visual AI Lab은 컴퓨터 비전과 멀티모달 인공지능 분야에서 세계적인 수준의 연구를 수행하는 연구실입니다. 본 연구실은 영상, 오디오, 텍스트, 열화상 등 다양한 센서 데이터를 통합적으로 활용하여 인간과 유사한 인지 및 인식 능력을 갖춘 인공지능 시스템 개발을 목표로 하고 있습니다. 특히, 2D/3D 객체 검출, 비디오 객체 검출, 세분화, 멀티모달 학습, 오디오-비주얼-텍스트 융합 등 첨단 기술을 선도적으로 연구하고 있습니다. 연구실은 자율주행, 로봇 비전, 스마트 시티, 의료 영상 분석 등 실제 산업 현장에서 요구되는 고난이도 문제 해결에 집중하고 있습니다. 예를 들어, 단일 카메라 기반의 3D 객체 검출, 대칭 지식 및 스테레오 비전 메모리 활용, 블랙아웃 상황에서의 강인한 보행자 검출, 다중 스펙트럼 보행자 인식 등 다양한 환경과 조건에서 신뢰성 있게 동작하는 강인한 인공지능 모델을 개발하고 있습니다. 또한, 반지도 학습, 불확실성 기반 피처 융합, 크로스모달 지식 증류 등 최신 기법을 도입하여 현실적인 문제를 해결하고 있습니다. 비디오 이해 및 자동 캡셔닝 분야에서도 활발한 연구가 이루어지고 있습니다. 순간 검색, 하이라이트 검출, 변화 캡셔닝, 밀집 비디오 캡셔닝 등 비디오 내 의미 있는 순간을 자동으로 탐지하고 설명하는 기술을 개발하여, 미디어 분석, 영상 요약, 자동 보고서 생성 등 다양한 응용 분야에 적용하고 있습니다. 대형 비전-언어 모델, 키워드 추출 기반 탐지, 멀티모달 정보 융합 등 최신 인공지능 기법을 적극적으로 활용하여, 복잡한 상황에서도 정확하고 신뢰성 있는 비디오 분석을 실현하고 있습니다. 연구실은 또한 오디오-비주얼 기반의 객체 검출, 소리 기반의 객체 위치 추정, 오디오-비주얼-텍스트 융합을 통한 질의응답 및 상황 인식 등 다양한 멀티센서 융합 기술을 연구하고 있습니다. 이러한 연구는 미래의 지능형 시스템이 다양한 센서 정보를 통합적으로 활용하여 더욱 정확하고 신뢰성 있는 인식 및 판단을 내릴 수 있도록 하는 데 중요한 역할을 합니다. Visual AI Lab은 국내외 유수 학회 및 저널에 다수의 논문을 게재하며, 산업체 및 공공기관과의 협력 연구, 특허 출원, 산학 프로젝트 등 다양한 활동을 통해 연구 성과를 사회에 환원하고 있습니다. 앞으로도 본 연구실은 컴퓨터 비전 및 멀티모달 인공지능 분야의 혁신을 선도하며, 인공지능 기술의 실질적 발전과 사회적 가치 창출에 기여할 것입니다.

대표 연구 분야 확인하기