연구 영역

대표 연구 분야

연구실에서 최근에 진행되고 있는 관심 연구 분야

1

Vision & Language

Vision & Language 분야는 컴퓨터 비전과 자연어 처리 기술을 융합하여, 이미지와 텍스트 간의 상호작용을 이해하고 해석하는 연구를 의미합니다. 본 연구실에서는 이미지 캡셔닝, 비주얼 질문 응답(Visual Question Answering, VQA), 이미지-텍스트 매칭 등 다양한 응용 분야를 다루고 있습니다. 이러한 연구는 인간의 시각적 인지와 언어적 표현을 동시에 모방하는 인공지능 시스템 개발에 중점을 두고 있습니다. 연구실에서는 대규모 이미지와 텍스트 데이터를 활용하여, 두 모달리티 간의 의미적 연결고리를 찾는 데 집중하고 있습니다. 이를 위해 딥러닝 기반의 멀티모달 신경망 구조를 설계하고, 다양한 데이터셋을 활용하여 모델의 일반화 성능을 높이고 있습니다. 또한, 실제 환경에서 발생할 수 있는 데이터의 불완전성이나 잡음에 강인한 모델을 개발하기 위해, 데이터 증강 및 정규화 기법도 적극적으로 도입하고 있습니다. 이러한 연구는 인공지능이 실제로 사람과 자연스럽게 소통하고, 복잡한 시각적 정보를 언어로 설명하거나 이해하는 데 큰 기여를 할 수 있습니다. 앞으로는 더욱 복잡한 멀티모달 상황에서도 뛰어난 성능을 보이는 모델 개발을 목표로, 다양한 도전 과제에 대한 연구를 지속할 예정입니다.

2

Large Vision & Language Models (LVLM) 및 Large Language Models (LLM)

대규모 비전-언어 모델(LVLM)과 대규모 언어 모델(LLM)은 최근 인공지능 분야에서 혁신적인 변화를 이끌고 있는 핵심 기술입니다. 본 연구실에서는 이러한 대규모 모델의 구조적 특성과 학습 방법론을 심층적으로 연구하며, 멀티모달 데이터에 대한 이해와 생성 능력을 극대화하는 데 주력하고 있습니다. LVLM은 이미지와 텍스트를 동시에 처리하여, 복잡한 질의응답, 이미지 설명 생성, 멀티모달 추론 등 다양한 작업에서 뛰어난 성능을 보입니다. 연구실은 사전학습(pre-training)과 미세조정(fine-tuning) 전략을 결합하여, 다양한 도메인과 태스크에 특화된 LVLM 및 LLM을 개발하고 있습니다. 또한, 모델의 효율성과 확장성을 높이기 위해 파라미터 효율적 학습, 어댑터(adapter) 구조, 지식 증류(knowledge distillation) 등 첨단 기법을 적극적으로 도입하고 있습니다. 이러한 연구는 실제 서비스에 적용 가능한 실용적이고 강인한 인공지능 모델을 구현하는 데 중요한 역할을 합니다. 향후 연구 방향으로는 멀티모달 대화 시스템, 이미지 생성 및 편집, 비디오 이해 등 더욱 복잡한 응용 분야로의 확장을 계획하고 있습니다. 또한, 대규모 모델의 공정성, 신뢰성, 데이터 편향 문제 해결에도 지속적으로 관심을 가지고 연구를 진행하고 있습니다.

3

Video Understanding 및 Sign Language Recognition

비디오 이해(Video Understanding)는 연속적인 영상 데이터에서 의미 있는 정보를 추출하고 해석하는 기술로, 행동 인식, 이벤트 검출, 시간적 구문 분석 등 다양한 응용 분야에 활용됩니다. 본 연구실에서는 비디오 내에서의 객체, 행동, 장면 변화 등을 효과적으로 파악하기 위한 딥러닝 기반의 모델을 개발하고 있습니다. 특히, 텍스트와 비디오를 결합하여 복합적인 질의응답이나 설명 생성 등 고차원적 멀티모달 태스크에 도전하고 있습니다. 수어 인식(Sign Language Recognition)은 비디오 이해 기술의 한 분야로, 청각 장애인을 위한 의사소통 지원 시스템 개발에 중요한 역할을 합니다. 연구실에서는 연속적인 수어 동작을 정확하게 인식하고 해석할 수 있는 신경망 구조를 설계하며, 실제 환경에서의 다양한 배경과 조명 변화에도 강인한 성능을 보이는 모델을 연구하고 있습니다. 또한, 수어 데이터의 부족 문제를 해결하기 위해 데이터 증강 및 합성 데이터 생성 기법도 적극적으로 도입하고 있습니다. 이러한 연구는 사회적 약자를 위한 포용적 인공지능 기술 개발에 기여할 뿐만 아니라, 비디오 기반의 다양한 응용 서비스(예: 자동 자막 생성, 행동 분석, 영상 검색 등)로의 확장 가능성도 높입니다. 앞으로는 더욱 다양한 언어와 문화권의 수어 데이터에 대한 연구도 확대할 계획입니다.

4

데이터 이슈, 편향 문제, Out-of-distribution Detection 및 능동 학습

인공지능 모델의 성능과 신뢰성은 데이터의 품질과 다양성에 크게 의존합니다. 본 연구실에서는 데이터의 불완전성, 불균형, 잡음 등 다양한 데이터 이슈를 해결하기 위한 방법론을 연구하고 있습니다. 특히, 실제 환경에서 수집되는 데이터는 이상치(outlier)나 분포 외 데이터(out-of-distribution, OOD)가 포함될 수 있으므로, 이를 효과적으로 탐지하고 대응하는 기술 개발에 집중하고 있습니다. 데이터 편향(Bias) 문제는 인공지능의 공정성과 신뢰성에 심각한 영향을 미칠 수 있습니다. 연구실에서는 데이터 및 모델의 편향을 분석하고, 이를 완화하기 위한 알고리즘(예: 디바이어스 학습, 카운터팩추얼 데이터 생성 등)을 개발하고 있습니다. 또한, 능동 학습(Active Learning) 기법을 통해, 최소한의 라벨링 비용으로 최대의 성능을 달성할 수 있는 데이터 샘플링 전략을 연구하고 있습니다. 이러한 연구는 실제 서비스에 적용되는 인공지능 시스템이 예기치 못한 상황에서도 안정적으로 동작하도록 하는 데 중요한 역할을 합니다. 앞으로는 더욱 다양한 도메인과 데이터 환경에서의 일반화 성능을 높이기 위한 연구를 지속할 예정입니다.