Visual Intelligence Lab
IT융합공학부-지능시스템트랙 오희석
Visual Intelligence Lab은 인공지능 기반의 시각 정보 처리 및 실감형 콘텐츠 기술을 선도하는 연구실입니다. 본 연구실은 인간의 시각 인지 특성을 반영한 영상 및 이미지의 품질 평가, 복원, 향상, 생성, 그리고 실감형 콘텐츠 분석 등 다양한 컴퓨터 비전 및 인공지능 응용 분야를 아우르고 있습니다. 특히, 기계학습과 딥러닝을 활용하여 인간이 체감하는 시각적 품질(QoE)을 정량적으로 예측하고, 이를 기반으로 실질적인 사용자 경험을 개선하는 데 중점을 두고 있습니다.
연구실은 심층 생성 모델(GAN, VAE, Diffusion Model 등)과 신경 렌더링, 트랜스포머 기반 네트워크 등 최신 인공지능 기술을 적극적으로 도입하여, 영상 복원, 인페인팅, 스타일 변환, 3D 복원, 감정 기반 아바타 생성 등 혁신적인 연구를 수행하고 있습니다. 또한, 단일 이미지 기반 3D 객체 복원, 플렌옵틱 영상 내 객체 추적, 멀티모달 융합 기반 컴퓨터 비전 등 차세대 실감형 콘텐츠 제작 및 분석 기술 개발에도 앞장서고 있습니다.
실감형 콘텐츠의 몰입감, 현실감, 멀미 등 사용자 체험 품질을 정량적으로 분석하고, 대규모 임상 실험 및 생체 신호 분석을 통해 과학적 근거를 확보하는 연구도 활발히 이루어지고 있습니다. 이를 바탕으로, 가상현실(VR), 증강현실(AR), 메타버스, XR 등 미래 미디어 환경에서의 사용자 안전성과 만족도를 높이기 위한 다양한 솔루션을 제시하고 있습니다.
연구실은 다수의 국제 특허, 우수 논문, 산학협력 프로젝트를 통해 학계와 산업계 모두에서 높은 평가를 받고 있습니다. 실제 산업 현장에서 적용 가능한 기술 개발과 상용화에도 적극적으로 참여하며, 차세대 실감 미디어 및 인공지능 기반 콘텐츠 산업의 혁신을 이끌고 있습니다.
이처럼 Visual Intelligence Lab은 인공지능, 컴퓨터 비전, 실감형 미디어, 인간 중심의 시각 정보 처리 등 다양한 연구 분야를 융합하여, 미래 사회의 핵심 기술을 창출하고 있습니다. 앞으로도 본 연구실은 창의적이고 도전적인 연구를 통해, 글로벌 수준의 연구 성과와 실질적인 사회적 가치를 지속적으로 제공할 것입니다.
Visual Object Tracking
Virtual Reality Sickness
3D Content Analysis
기계학습 기반 시각적 체험 품질 정량화(QoE)
본 연구실은 인간의 시각적 체험 품질(Quality of Experience, QoE)을 정량적으로 평가하는 기계학습 기반의 첨단 기술을 개발하고 있습니다. 영상, 이미지, 실감형 콘텐츠 등 다양한 시각 정보에 대해 인간이 인지하는 품질, 몰입감, 현실감, 존재감 등을 자동으로 예측할 수 있는 객관적 지표를 구축하는 것이 핵심 목표입니다. 이를 위해 심층신경망, 트랜스포머, 하이브리드 네트워크 등 최신 인공지능 기법을 활용하여, 인간의 시각 인지 특성을 반영한 품질 예측 모델을 설계하고 있습니다.
이러한 연구는 콘텐츠 제작, 압축, 전송, 디스플레이, 복원, 향상, 분석 등 다양한 응용 분야에서 중요한 역할을 합니다. 예를 들어, 가상현실(VR) 및 증강현실(AR) 환경에서 사용자의 몰입감과 멀미 예측, 영상 스트리밍 서비스에서 화질 저하에 대한 사용자 만족도 평가, 이미지 복원 및 향상 기술의 성능 평가 등 실질적인 산업적 활용이 가능합니다. 또한, 주관적 평가 데이터와 생체 신호(EEG 등)를 결합하여 더욱 정밀한 품질 예측이 가능한 융합 연구도 활발히 진행 중입니다.
연구실은 다양한 국제 특허와 논문을 통해 시각적 QoE 평가 분야에서 선도적인 성과를 내고 있으며, 실제 임상 실험과 대규모 사용자 평가를 기반으로 한 데이터셋 구축, 그리고 이를 활용한 예측 모델의 상용화에도 힘쓰고 있습니다. 이러한 연구는 차세대 실감 미디어, 메타버스, XR, 디지털 헬스케어 등 미래 산업의 핵심 기반 기술로 자리매김하고 있습니다.
지능형 영상 복원 및 생성: 딥 제너레이티브 모델과 신경 렌더링
본 연구실은 딥러닝 기반의 영상 복원, 향상, 생성 및 신경 렌더링 기술을 중점적으로 연구하고 있습니다. 심층 생성 모델(Generative Models), 예를 들어 VAE, GAN, Diffusion Model, VQ-VAE 등 다양한 구조를 활용하여, 손상된 이미지 및 영상의 복원, 고해상도 변환, 스타일 변환, 실감형 콘텐츠 합성 등 폭넓은 응용을 실현하고 있습니다. 특히, 단일 이미지 기반 3D 복원, 영상 인페인팅, 스타일라이제이션, 얼굴 아바타 생성 등 최신 트렌드에 부합하는 연구를 활발히 수행 중입니다.
최근에는 신경 렌더링(Neural Rendering)과 멀티모달 생성 기술을 접목하여, 가상현실/증강현실/메타버스 환경에서의 실감형 콘텐츠 제작, 감정 기반 3D 아바타 생성(EMOVA), 웨이블릿 도메인 기반 단일 이미지 디퓨전(SinWaveFusion) 등 혁신적인 결과를 도출하고 있습니다. 또한, 오토인코더와 사전학습 기반의 GAN 안정화, 계층별 트랜스포머를 활용한 비선형 스타일 결합 등 생성 모델의 한계를 극복하는 새로운 방법론도 제안하고 있습니다.
이러한 연구는 영상 복원 및 생성 분야의 정량적·정성적 성능 향상뿐만 아니라, 실제 사용자 경험을 극대화하는 실질적 가치를 창출합니다. 다양한 국제 저널 및 학회에서 우수 논문을 발표하고, 관련 특허를 다수 보유함으로써, 인공지능 기반 실감 미디어 및 차세대 콘텐츠 산업의 혁신을 선도하고 있습니다.
실감형 콘텐츠 분석 및 객체 추적: 컴퓨터 비전과 멀티모달 융합
연구실은 실감형 콘텐츠(메타버스, VR, AR 등) 내에서의 시각 효과 분석, 객체 추적, 멀티모달 융합 기반 컴퓨터 비전 기술을 심도 있게 연구하고 있습니다. 플렌옵틱 영상, 2D/3D 이미지, 비디오 등 다양한 데이터에서 객체의 위치와 상태를 정확히 추적하는 기술, 그리고 인간의 시각 인지 특성을 반영한 실감 콘텐츠의 품질 분석이 주요 연구 주제입니다. 특히, occlusion(가림) 상황에서도 강인한 객체 추적, detection-free tracking, 멀티포컬 정보 활용 등 차별화된 알고리즘을 개발하고 있습니다.
이와 함께, 실감형 콘텐츠의 몰입감, 현실감, 멀미 등 사용자의 체험 품질을 정량적으로 분석하는 연구도 활발히 진행 중입니다. 대규모 임상 실험, 생체 신호 분석, 주관적/객관적 평가 지표 개발 등을 통해, 실감형 미디어의 사용자 경험을 과학적으로 규명하고, 이를 기반으로 한 품질 예측 및 개선 방안을 제시하고 있습니다. 또한, 멀티모달 데이터(영상, 음성, 텍스트 등)를 통합 분석하여, 감정 인식, 행동 예측, 상호작용 분석 등 다양한 응용 분야로 연구를 확장하고 있습니다.
이러한 연구는 자율주행, 감시, 디지털 헬스케어, 교육, 엔터테인먼트 등 다양한 산업 분야에서 활용될 수 있으며, 실제 프로젝트 및 산학협력을 통해 기술의 실용화와 상용화에도 적극적으로 기여하고 있습니다.
1
Convolutional neural shading: a novel pipeline for high-quality 3D object reconstruction from multi-view images
Juheon Hwang, Taewan Kim, Heeseok Oh, Jiwoo Kang
Multimedia Systems, 2025.06
2
SinWaveFusion: learning a single image diffusion model in wavelet domain
Jisoo Kim, Jiwoo Kang, Taewan Kim, Heeseok Oh
Image and Vision Computing, 2025.06
3
EMOVA: emotion-driven neural volumetric avatar
Juheon Hwang, Byung-gyu Kim, Taewan Kim, Heeseok Oh, Jiwoo Kang
Image and Vision Computing, 2024.06
1
Development of a GUI Module for Testing the Performance of Object Appearance Tracking Algorithms in Multi-Element Videos
2
Implementation and Comparison of Multiple Object Tracking Algorithms
3
Interaction Feature Extraction and XR QoE Modeling