연구실에서 최근에 진행되고 있는 관심 연구 분야
1
멀티모달 표현 학습
멀티모달 표현 학습은 이미지, 텍스트, 소리 등 다양한 형태의 데이터를 통합적으로 이해하고 처리하는 기술을 개발하는 연구 분야입니다. 본 연구실에서는 각기 다른 모달리티의 정보를 효과적으로 결합하여, 기존의 단일 모달리티 기반 인공지능 시스템이 가지는 한계를 극복하고자 합니다. 이를 위해 이미지-텍스트-사운드의 조합을 통한 공동 임베딩 공간 구축, 모달리티 간 의미적 정렬, 그리고 다양한 응용 분야에서의 활용 가능성을 탐구하고 있습니다. 최근 연구에서는 텍스트와 이미지의 조합을 넘어, 사운드와 같은 추가적인 모달리티를 도입하여 더욱 풍부한 의미와 맥락을 포착할 수 있는 방법론을 제안하고 있습니다. 예를 들어, 사운드를 활용한 이미지 조작 및 생성, 멀티이벤트 비디오 생성, 그리고 텍스트-비디오 모델을 통한 복합적 정보 생성 등 다양한 응용 연구가 활발히 이루어지고 있습니다. 이러한 연구는 실제 환경에서의 인공지능 시스템의 적응력과 표현력을 크게 향상시키는 데 기여합니다. 멀티모달 표현 학습의 발전은 자율주행, 로봇, 미디어 생성, 의료 영상 분석 등 다양한 분야에서 혁신적인 변화를 이끌고 있습니다. 본 연구실은 멀티모달 데이터의 상호작용과 융합을 통해, 인간과 유사한 수준의 인지 및 이해 능력을 갖춘 인공지능 시스템 개발을 목표로 하고 있습니다. 앞으로도 다양한 모달리티의 통합적 활용을 통해, 더욱 직관적이고 설명 가능한 AI 기술을 선도할 계획입니다.
2
대규모 자율주행을 위한 기계학습
자율주행 차량의 상용화와 실현을 위해서는 대규모 데이터와 복잡한 환경에서 안정적으로 동작할 수 있는 기계학습 기술이 필수적입니다. 본 연구실은 대규모 자율주행 시스템을 위한 효율적이고 확장 가능한 기계학습 모델 개발에 주력하고 있습니다. 특히, 3D 객체 탐지, 행동 예측, 점유 예측 등 자율주행의 핵심 인지 문제를 해결하기 위한 다양한 알고리즘을 연구하고 있습니다. 최근에는 실시간 환경에서의 효율성과 정확도를 동시에 달성하기 위한 스트림 기반의 3D 점유 예측, 다중 카메라 및 LiDAR 센서 융합, 도메인 일반화 및 적응 기술 등 다양한 첨단 방법론을 제안하였습니다. 또한, 인간의 조언과 설명을 내재화한 설명 가능한 자율주행 인공지능, 미래 궤적 정보를 활용한 행동 예측, 시뮬레이션 기반 시나리오 검증 등 실제 도로 환경에서 발생할 수 있는 다양한 상황에 대응할 수 있는 연구도 활발히 진행 중입니다. 이러한 연구 성과는 Waymo, 현대자동차 등 글로벌 기업과의 협업 및 실제 자율주행 플랫폼 적용을 통해 검증되고 있습니다. 앞으로도 본 연구실은 대규모 자율주행 시스템의 신뢰성, 안전성, 그리고 실시간 처리 능력을 극대화하는 혁신적인 기계학습 기술 개발에 앞장설 것입니다.
3
지속적·생애학습 및 도메인 일반화
지속적 학습(Continual Learning)과 생애학습(Life-long Learning)은 인공지능이 새로운 환경이나 데이터에 적응하면서도 기존에 학습한 지식을 잃지 않는 능력을 의미합니다. 본 연구실은 인공지능 모델이 다양한 도메인과 환경 변화에 유연하게 적응할 수 있도록, 지속적 학습 및 도메인 일반화 기술을 중점적으로 연구하고 있습니다. 이는 실제 환경에서의 데이터 분포 변화, 도메인 시프트, 그리고 한정된 데이터 상황에서의 성능 저하 문제를 해결하는 데 중요한 역할을 합니다. 구체적으로, 본 연구실은 자기지도 학습 기반의 도메인 일반화, 대조 학습(Contrastive Learning) 기반의 정규화, 그리고 커리큘럼 학습을 통한 도메인 노출 순서 최적화 등 다양한 방법론을 개발하였습니다. 또한, 텍스트 정보를 활용한 도메인 비특이적 이미지 분류, 멀티도메인에 강인한 멀티모달 기반 3D 객체 인식 등 실제 응용에 적합한 기술을 지속적으로 선보이고 있습니다. 이러한 연구는 의료 영상, 자율주행, 영상 생성 등 다양한 분야에서 모델의 일반화 성능을 극대화하고, 실제 환경 변화에 강인한 인공지능 시스템 구축에 기여하고 있습니다. 앞으로도 본 연구실은 인공지능의 지속적 성장과 적응을 위한 혁신적인 학습 패러다임을 제시할 계획입니다.
4
파운데이션 모델 및 생성 AI
파운데이션 모델(Foundation Models)은 대규모 데이터와 연산 자원을 활용하여 다양한 태스크에 범용적으로 적용 가능한 인공지능 모델을 의미합니다. 본 연구실은 파운데이션 모델의 구조적 혁신, 효율적 파인튜닝, 그리고 실제 응용 분야에서의 활용성 극대화에 초점을 맞추고 있습니다. 특히, 텍스트-이미지, 텍스트-비디오, 텍스트-사운드 등 다양한 멀티모달 태스크에서의 파운데이션 모델 연구가 활발히 이루어지고 있습니다. 최근에는 생성형 AI(Generative AI)와 결합하여, 텍스트 프롬프트 기반 이미지/비디오 생성, 사운드 반응형 비디오 생성, 사용자 맞춤형 생성 모델 등 다양한 혁신적 응용을 선보이고 있습니다. 또한, 보상 신호를 활용한 텍스트-이미지 디퓨전 모델의 효율적 파인튜닝, 대규모 언어모델(LLM) 기반 응용 서비스 개발, 국방 및 산업 분야 초거대 AI 적용 방안 연구 등 사회적 파급력이 큰 프로젝트도 진행 중입니다. 이러한 연구는 인공지능의 범용성, 적응성, 그리고 창의적 문제 해결 능력을 극대화하는 데 기여하고 있습니다. 앞으로도 본 연구실은 파운데이션 모델과 생성 AI의 융합을 통해, 차세대 인공지능 기술의 새로운 패러다임을 제시할 것입니다.