연구실에서 최근에 진행되고 있는 관심 연구 분야
1
대규모 표현 학습 및 비디오 이해
김은솔 연구실은 대규모 데이터에서의 표현 학습과 비디오 이해를 핵심 연구 주제로 삼고 있습니다. 최근 인공지능 분야에서는 방대한 양의 이미지와 비디오 데이터를 효과적으로 처리하고, 그 안에 내재된 의미 구조를 정확히 파악하는 것이 매우 중요해졌습니다. 본 연구실은 트랜스포머(Transformer) 기반의 딥러닝 모델을 활용하여, 비디오 내의 시공간적 정보를 효과적으로 추출하고, 장면 간의 의미적 연관성을 파악하는 다양한 방법론을 개발하고 있습니다. 예를 들어, 시공간 그래프 기반의 비디오 인식, 장면 그래프(scene graph)를 활용한 비디오 생성 및 요약, 동적 시간 워핑(dynamic time warping)과 같은 알고리즘을 적용하여 긴 비디오의 의미 단위 분할 및 검색 기술을 선도적으로 연구하고 있습니다. 이러한 연구는 실제로 긴 비디오의 핵심 프레임을 자동으로 추출하거나, 비디오 내의 다양한 행동과 이벤트를 조합적으로 예측하는 데 활용됩니다. 또한, 그래프 기반의 프레임 샘플링, 의미 기반 비디오 검색 및 추천, 구조 인식 기반 비디오 표현 학습 등 다양한 특허와 논문을 통해 그 우수성이 입증되고 있습니다. 본 연구실은 비디오와 텍스트, 오디오 등 멀티모달 데이터를 통합적으로 분석하여, 실세계에서 발생하는 복잡한 상황을 인공지능이 이해하고 해석할 수 있도록 하는 기술 개발에 주력하고 있습니다. 이러한 대규모 표현 학습 및 비디오 이해 연구는 대용량 CCTV 데이터 분석, 비디오 기반 플랫폼의 추천 시스템, 실시간 상황 인식 등 다양한 산업적 응용 분야에 적용될 수 있습니다. 앞으로도 김은솔 연구실은 더욱 정교하고 해석 가능한 비디오 인식 및 생성 기술을 개발하여, 인공지능의 실질적 활용 가치를 높이는 데 기여할 것입니다.
2
인간 수준의 추론과 지식 기반 인공지능
김은솔 연구실은 인간과 유사한 추론 능력을 갖춘 인공지능 개발을 목표로, 지식 기반의 심층 논리 신경망, 멀티모달 추론, 그리고 외부 지식 체계와의 결합에 관한 연구를 활발히 수행하고 있습니다. 기존의 인공지능 모델은 단순한 패턴 인식에 머무르는 경우가 많았으나, 본 연구실은 복잡한 문제 해결 과정을 코드 스타일의 해설(rationale)로 구조화하거나, 지식 그래프를 활용하여 일반 상식 기반의 질의응답 및 추론을 가능하게 하는 새로운 접근법을 제시하고 있습니다. 특히, 시각적 연쇄 사고(Chain-of-Thought)와 같은 다단계 추론 문제에서 기존 모델의 한계를 극복하기 위해, 문제 해결 과정을 스키마 생성(schema generation)과 실현(schema instantiation)으로 분리하여 처리하는 혁신적인 네트워크 구조를 개발하였습니다. 이를 통해 이미지와 자연어, 외부 지식이 결합된 복합적인 질의응답 시스템, 의미 기반 비디오 검색 및 추천, 그리고 비디오 내 행동 예측 등 다양한 응용 분야에서 인간 수준의 추론 능력을 구현하고 있습니다. 이러한 연구는 실제로 프롬프트 기반 비디오 생성, 해석 가능한 주파수 분할 시공간 그래프 기반 비디오 인식, 효율적인 시각 질의응답 시스템 등 다양한 특허와 프로젝트로 이어지고 있습니다. 앞으로도 김은솔 연구실은 인공지능이 인간처럼 상황을 이해하고, 새로운 사실을 추론하며, 복잡한 문제를 논리적으로 해결할 수 있도록 하는 핵심 기술 개발에 앞장설 것입니다.