기본 정보
연구 분야
프로젝트
발행물
구성원
연구 영역
대표 연구 분야
연구실이 가장 잘하는 대표 연구 분야
1

멀티모달 인공지능과 생성형 모델

이 연구실은 시각, 청각, 언어 등 서로 다른 형태의 정보를 함께 이해하고 활용하는 멀티모달 인공지능을 핵심 축으로 연구한다. 최근 발표된 오디오 기반 이미지 조작, 오디오 유도 국소 스타일화, 사운드 반응형 비디오 생성 관련 성과는 단일 모달 입력에 의존하던 기존 인공지능을 넘어, 실제 환경에서 자연스럽게 결합되는 복합 신호를 처리하는 방향으로 연구가 확장되고 있음을 보여준다. 특히 소리와 영상의 의미적 정렬, 특정 객체나 영역의 정밀한 국소화, 그리고 사용자의 의도에 맞는 시각적 변환은 차세대 인터랙티브 생성 AI의 중요한 기반 기술이다. 기술적으로는 CLIP과 같은 공통 임베딩 공간, 암시적 신경표현(implicit neural representation), 확산모델, 텍스트-투-비디오 및 이미지 생성 모델을 적극적으로 활용하는 흐름이 관찰된다. 이러한 접근은 단순히 이미지를 생성하는 수준을 넘어서, 입력된 소리나 설명에 따라 장면의 특정 부분만 조작하거나, 여러 사건이 포함된 복합 비디오를 생성하는 등 더욱 세밀하고 구조화된 생성 능력을 목표로 한다. 또한 안전한 생성 AI를 위한 시각적 유해 단서의 탐지 및 제어 연구도 함께 이루어져, 생성 품질뿐 아니라 책임 있는 활용 가능성까지 고려하고 있다. 이 분야의 연구는 콘텐츠 제작, 가상현실, 인간-컴퓨터 상호작용, 디지털 미디어 편집, 교육 및 엔터테인먼트 산업에 폭넓게 적용될 수 있다. 나아가 향후에는 거대언어모델과 멀티모달 파운데이션 모델을 결합하여, 사용자의 맥락과 선호를 이해하고 설명 가능한 방식으로 반응하는 생성형 에이전트로 발전할 가능성이 크다. 연구실이 수행 중인 LLM 기반 응용서비스 개발과 생성 AI 인재양성 프로젝트는 이러한 장기 비전과도 직접 연결되며, 실용성과 학문적 기여를 동시에 추구하는 연구 방향을 잘 보여준다.

멀티모달생성형 인공지능오디오비주얼확산모델영상생성
2

컴퓨터 비전과 자율주행 지능

이 연구실의 또 다른 핵심 주제는 자율주행을 위한 지능형 시각 인식과 공간 이해 기술이다. 경력 측면에서 Waymo, Honda Research Institute, Phantom AI, 현대 MOBIS 등 자율주행 및 모빌리티 관련 기관과의 경험이 축적되어 있으며, 연구 성과 역시 3D 객체 검출, 궤적 예측, 점유 예측, BEV 표현 학습, SLAM, 멀티카메라 인지 등 실제 주행 환경에서 요구되는 문제들에 집중되어 있다. 이는 연구실이 이론적 인공지능에 머무르지 않고, 실제 물리적 세계에서 작동하는 인지 시스템을 설계하는 데 강점을 가지고 있음을 시사한다. 세부적으로는 LiDAR 기반 3D 객체 검출, 멀티뷰 객체 인식, 지도 인지형 BEV 모델링, 도메인 차이 극복을 위한 일반화 및 적응, 보행자 및 차량의 미래 궤적 예측과 같은 주제가 두드러진다. 이러한 과제는 센서 해상도 부족, 클래스 불균형, 도메인 이동, 복잡한 도시 환경, 다중 객체 상호작용 등 자율주행이 직면한 대표적 난제를 포함한다. 연구실은 프로토타입 기반 표현, 텍스트 또는 시각 관계 reasoning, 미래 관측 기반 지식 전달, 사전학습 모델의 효율적 미세조정 등을 통해 성능과 일반화 능력을 동시에 높이려는 방법론을 추구하고 있다. 이 연구는 안전하고 신뢰할 수 있는 자율주행 시스템 구현에 직결된다. 정확한 3차원 인식과 미래 행동 예측은 충돌 회피, 경로 계획, 복잡 교차로 대응, 보행자 보호 등 핵심 기능의 기초가 된다. 향후에는 대규모 파운데이션 모델, 멀티센서 융합, 설명 가능성, 사용자 피드백 반영 기술과 결합하여, 단순히 보는 자동차를 넘어 상황을 이해하고 인간과 협력하는 자율주행 인공지능으로 확장될 가능성이 높다.

자율주행컴퓨터비전3D인식궤적예측도메인일반화
3

설명 가능한 인공지능과 사용자 상호작용형 에이전트

연구실은 단순히 높은 정확도의 모델을 만드는 것을 넘어, 인간과 상호작용하며 설명 가능하고 조언을 반영할 수 있는 인공지능 시스템에도 주목하고 있다. 자율주행차를 위한 설명 가능 및 사용자 조언 내재화 인공지능 프로젝트는 이러한 방향성을 잘 보여준다. 여기서 핵심은 인공지능이 왜 그런 결정을 내렸는지를 시각적 또는 자연어 형태로 전달하고, 동시에 사용자나 전문가의 피드백을 학습에 통합하여 더 나은 의사결정을 수행하도록 만드는 것이다. 이와 연결되어 연구실은 페르소나와 사회성을 갖춘 지능형 에이전트 플랫폼 개발도 추진하고 있다. 해당 프로젝트는 모사 대상과의 인지적 상호작용을 통해 에이전트가 자신의 개성을 형성하고, 멀티모달 정보를 바탕으로 상대에 맞춰 학습하며, 상호작용 과정에서 새로운 개성을 생성하도록 하는 것을 목표로 한다. 이는 기존의 정적인 챗봇이나 규칙 기반 시스템을 넘어, 시간에 따라 변화하고 관계 맥락을 반영하는 적응형 에이전트로 발전하려는 시도라고 볼 수 있다. 이러한 연구는 인간 중심 AI, 사회적 AI, 디지털 동반자, 교육 및 상담 보조 시스템, 설명 가능한 의사결정 지원 시스템 등 다양한 응용으로 이어질 수 있다. 특히 거대언어모델과 멀티모달 모델이 빠르게 확산되는 현재, 사용자의 가치와 선호를 이해하고 장기적 상호작용 속에서 신뢰를 형성하는 AI의 중요성은 더욱 커지고 있다. 연구실은 설명 가능성, 조언 수용, 개성 형성, 사회성 모델링을 결합함으로써, 향후 인간과 협력하는 차세대 에이전트 연구에서 중요한 기반을 마련하고 있다.

설명가능인공지능지능형에이전트휴먼컴퓨터인터랙션페르소나사용자피드백