Multimodal AI Lab
인공지능데이터사이언스학과 조재원
Multimodal AI Lab은 세종대학교 인공지능데이터사이언스학과에 소속된 연구실로, 컴퓨터 비전, 자연어 처리, 오디오 등 다양한 모달리티의 융합을 통한 차세대 인공지능 기술 개발에 주력하고 있습니다. 본 연구실은 딥러닝과 머신러닝을 기반으로, 멀티모달 데이터의 통합적 이해와 생성, 그리고 실제 응용에 적용 가능한 혁신적인 모델을 연구하고 있습니다.
주요 연구 분야로는 Vision & Language, 대규모 비전-언어 모델(LVLM), 대규모 언어 모델(LLM), 언어-이미지 생성, 비디오 이해, 수어 인식 등이 있습니다. 이러한 분야에서 연구실은 이미지와 텍스트, 비디오와 언어 등 서로 다른 데이터 간의 의미적 연결을 찾고, 이를 바탕으로 복합적인 인공지능 태스크를 해결하는 데 집중하고 있습니다. 또한, 실제 환경에서 발생할 수 있는 데이터 이슈, 편향 문제, 분포 외 데이터 탐지, 능동 학습 등 인공지능의 신뢰성과 공정성을 높이기 위한 연구도 활발히 진행 중입니다.
연구실의 대표 논문들은 Visual Question Answering, 멀티모달 학습, 비디오 기반 질의응답, 수어 인식 등 다양한 분야에서 우수한 성과를 거두고 있으며, 국내외 주요 학회 및 저널에 다수의 논문을 게재하고 있습니다. 특히, 대규모 멀티모달 모델의 효율적 학습, 데이터 편향 완화, 실제 환경에서의 강인성 확보 등 첨단 이슈에 대한 연구가 두드러집니다.
이외에도, 연구실은 사회적 약자를 위한 포용적 인공지능 기술 개발, 데이터의 다양성과 품질 향상, 실제 서비스 적용을 위한 실용적 연구 등 다양한 사회적·기술적 도전 과제에 적극적으로 대응하고 있습니다. 멀티모달 인공지능의 미래를 선도하기 위해, 지속적인 연구와 혁신을 이어가고 있습니다.
앞으로 Multimodal AI Lab은 더욱 복잡하고 다양한 멀티모달 환경에서의 인공지능 모델 개발, 데이터 이슈 해결, 공정하고 신뢰할 수 있는 AI 시스템 구현 등 다양한 연구 목표를 달성하기 위해 노력할 것입니다. 이를 통해 인공지능 기술의 사회적 가치와 실용성을 높이고, 글로벌 연구 경쟁력을 강화하는 데 기여할 것입니다.
Instructional Video Analysis
Image Captioning
Sign Language Recognition
Vision & Language
Vision & Language 분야는 컴퓨터 비전과 자연어 처리 기술을 융합하여, 이미지와 텍스트 간의 상호작용을 이해하고 해석하는 연구를 의미합니다. 본 연구실에서는 이미지 캡셔닝, 비주얼 질문 응답(Visual Question Answering, VQA), 이미지-텍스트 매칭 등 다양한 응용 분야를 다루고 있습니다. 이러한 연구는 인간의 시각적 인지와 언어적 표현을 동시에 모방하는 인공지능 시스템 개발에 중점을 두고 있습니다.
연구실에서는 대규모 이미지와 텍스트 데이터를 활용하여, 두 모달리티 간의 의미적 연결고리를 찾는 데 집중하고 있습니다. 이를 위해 딥러닝 기반의 멀티모달 신경망 구조를 설계하고, 다양한 데이터셋을 활용하여 모델의 일반화 성능을 높이고 있습니다. 또한, 실제 환경에서 발생할 수 있는 데이터의 불완전성이나 잡음에 강인한 모델을 개발하기 위해, 데이터 증강 및 정규화 기법도 적극적으로 도입하고 있습니다.
이러한 연구는 인공지능이 실제로 사람과 자연스럽게 소통하고, 복잡한 시각적 정보를 언어로 설명하거나 이해하는 데 큰 기여를 할 수 있습니다. 앞으로는 더욱 복잡한 멀티모달 상황에서도 뛰어난 성능을 보이는 모델 개발을 목표로, 다양한 도전 과제에 대한 연구를 지속할 예정입니다.
Large Vision & Language Models (LVLM) 및 Large Language Models (LLM)
대규모 비전-언어 모델(LVLM)과 대규모 언어 모델(LLM)은 최근 인공지능 분야에서 혁신적인 변화를 이끌고 있는 핵심 기술입니다. 본 연구실에서는 이러한 대규모 모델의 구조적 특성과 학습 방법론을 심층적으로 연구하며, 멀티모달 데이터에 대한 이해와 생성 능력을 극대화하는 데 주력하고 있습니다. LVLM은 이미지와 텍스트를 동시에 처리하여, 복잡한 질의응답, 이미지 설명 생성, 멀티모달 추론 등 다양한 작업에서 뛰어난 성능을 보입니다.
연구실은 사전학습(pre-training)과 미세조정(fine-tuning) 전략을 결합하여, 다양한 도메인과 태스크에 특화된 LVLM 및 LLM을 개발하고 있습니다. 또한, 모델의 효율성과 확장성을 높이기 위해 파라미터 효율적 학습, 어댑터(adapter) 구조, 지식 증류(knowledge distillation) 등 첨단 기법을 적극적으로 도입하고 있습니다. 이러한 연구는 실제 서비스에 적용 가능한 실용적이고 강인한 인공지능 모델을 구현하는 데 중요한 역할을 합니다.
향후 연구 방향으로는 멀티모달 대화 시스템, 이미지 생성 및 편집, 비디오 이해 등 더욱 복잡한 응용 분야로의 확장을 계획하고 있습니다. 또한, 대규모 모델의 공정성, 신뢰성, 데이터 편향 문제 해결에도 지속적으로 관심을 가지고 연구를 진행하고 있습니다.
Video Understanding 및 Sign Language Recognition
비디오 이해(Video Understanding)는 연속적인 영상 데이터에서 의미 있는 정보를 추출하고 해석하는 기술로, 행동 인식, 이벤트 검출, 시간적 구문 분석 등 다양한 응용 분야에 활용됩니다. 본 연구실에서는 비디오 내에서의 객체, 행동, 장면 변화 등을 효과적으로 파악하기 위한 딥러닝 기반의 모델을 개발하고 있습니다. 특히, 텍스트와 비디오를 결합하여 복합적인 질의응답이나 설명 생성 등 고차원적 멀티모달 태스크에 도전하고 있습니다.
수어 인식(Sign Language Recognition)은 비디오 이해 기술의 한 분야로, 청각 장애인을 위한 의사소통 지원 시스템 개발에 중요한 역할을 합니다. 연구실에서는 연속적인 수어 동작을 정확하게 인식하고 해석할 수 있는 신경망 구조를 설계하며, 실제 환경에서의 다양한 배경과 조명 변화에도 강인한 성능을 보이는 모델을 연구하고 있습니다. 또한, 수어 데이터의 부족 문제를 해결하기 위해 데이터 증강 및 합성 데이터 생성 기법도 적극적으로 도입하고 있습니다.
이러한 연구는 사회적 약자를 위한 포용적 인공지능 기술 개발에 기여할 뿐만 아니라, 비디오 기반의 다양한 응용 서비스(예: 자동 자막 생성, 행동 분석, 영상 검색 등)로의 확장 가능성도 높입니다. 앞으로는 더욱 다양한 언어와 문화권의 수어 데이터에 대한 연구도 확대할 계획입니다.
1
HQD-EM : Robust VQA through Hierarchical Question Decomposition and Ensemble-Adaptive Margins
Seong Hyun Noh, Jae Won Cho
, 2025
2
Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality
Youngtaek Oh, Jae Won Cho, Dong-Jin Kim, In So Kweon, Junmo Kim
, 2024
3
Let Me Finish My Sentence: Video Temporal Grounding with Holistic Text Understanding
Jongbhin Woo, Hyeonggon Ryu, Youngjoon Jang, Jae Won Cho, Joon Son Chung
, 2024