김은솔 연구실
컴퓨터소프트웨어학부 김은솔
김은솔 연구실은 컴퓨터 비전과 인공지능 분야에서 세계적인 수준의 연구를 수행하고 있습니다. 본 연구실은 대규모 데이터에서의 표현 학습, 비디오 이해, 인간 수준의 추론, 그리고 멀티모달 데이터 통합 분석을 중심으로 다양한 연구를 진행하고 있습니다. 특히, 트랜스포머와 그래프 신경망 등 최신 딥러닝 기술을 활용하여, 비디오 내의 복잡한 시공간적 구조와 의미를 효과적으로 추출하고 해석하는 방법론을 개발하고 있습니다.
연구실의 주요 연구 분야는 대규모 비디오 데이터의 의미 구조 분석, 장면 그래프 기반 비디오 생성 및 요약, 시공간적 행동 예측, 그리고 의미 기반 비디오 검색 및 추천 등입니다. 이러한 연구는 실제로 긴 비디오의 핵심 프레임을 자동으로 추출하거나, 비디오 내의 다양한 행동과 이벤트를 조합적으로 예측하는 데 활용되고 있습니다. 또한, 그래프 기반의 프레임 샘플링, 구조 인식 기반 비디오 표현 학습, 그리고 멀티모달 데이터의 통합적 분석 등 다양한 특허와 논문을 통해 그 우수성이 입증되고 있습니다.
김은솔 연구실은 인간과 유사한 추론 능력을 갖춘 인공지능 개발에도 주력하고 있습니다. 지식 기반의 심층 논리 신경망, 멀티모달 추론, 외부 지식 체계와의 결합을 통해, 기존 인공지능의 한계를 극복하고 있습니다. 예를 들어, 코드 스타일의 해설을 활용한 시각적 연쇄 사고, 지식 그래프 기반의 질의응답 시스템, 의미 기반 비디오 검색 및 추천 등 다양한 응용 분야에서 혁신적인 연구 성과를 내고 있습니다.
이러한 연구는 대용량 CCTV 데이터 분석, 비디오 기반 플랫폼의 추천 시스템, 실시간 상황 인식 등 다양한 산업적 응용 분야에 적용될 수 있습니다. 또한, 실제 산업 현장에서 요구되는 실시간 비디오 분석, 의미 기반 검색, 행동 예측 등 다양한 문제 해결에 기여하고 있습니다. 앞으로도 김은솔 연구실은 더욱 정교하고 해석 가능한 인공지능 기술을 개발하여, 인공지능의 실질적 활용 가치를 높이는 데 앞장설 것입니다.
김은솔 연구실은 국내외 유수의 학회 및 저널에 다수의 논문을 발표하며, 다양한 특허와 정부 과제를 수행하고 있습니다. 연구실 구성원들은 창의적이고 도전적인 연구를 통해, 인공지능 분야의 새로운 패러다임을 제시하고 있습니다. 앞으로도 본 연구실은 인공지능과 컴퓨터 비전 분야에서 세계적인 연구 성과를 지속적으로 창출할 것입니다.
Multi-Modal Learning
Multimodal Learning
Transformer Models
대규모 표현 학습 및 비디오 이해
김은솔 연구실은 대규모 데이터에서의 표현 학습과 비디오 이해를 핵심 연구 주제로 삼고 있습니다. 최근 인공지능 분야에서는 방대한 양의 이미지와 비디오 데이터를 효과적으로 처리하고, 그 안에 내재된 의미 구조를 정확히 파악하는 것이 매우 중요해졌습니다. 본 연구실은 트랜스포머(Transformer) 기반의 딥러닝 모델을 활용하여, 비디오 내의 시공간적 정보를 효과적으로 추출하고, 장면 간의 의미적 연관성을 파악하는 다양한 방법론을 개발하고 있습니다. 예를 들어, 시공간 그래프 기반의 비디오 인식, 장면 그래프(scene graph)를 활용한 비디오 생성 및 요약, 동적 시간 워핑(dynamic time warping)과 같은 알고리즘을 적용하여 긴 비디오의 의미 단위 분할 및 검색 기술을 선도적으로 연구하고 있습니다.
이러한 연구는 실제로 긴 비디오의 핵심 프레임을 자동으로 추출하거나, 비디오 내의 다양한 행동과 이벤트를 조합적으로 예측하는 데 활용됩니다. 또한, 그래프 기반의 프레임 샘플링, 의미 기반 비디오 검색 및 추천, 구조 인식 기반 비디오 표현 학습 등 다양한 특허와 논문을 통해 그 우수성이 입증되고 있습니다. 본 연구실은 비디오와 텍스트, 오디오 등 멀티모달 데이터를 통합적으로 분석하여, 실세계에서 발생하는 복잡한 상황을 인공지능이 이해하고 해석할 수 있도록 하는 기술 개발에 주력하고 있습니다.
이러한 대규모 표현 학습 및 비디오 이해 연구는 대용량 CCTV 데이터 분석, 비디오 기반 플랫폼의 추천 시스템, 실시간 상황 인식 등 다양한 산업적 응용 분야에 적용될 수 있습니다. 앞으로도 김은솔 연구실은 더욱 정교하고 해석 가능한 비디오 인식 및 생성 기술을 개발하여, 인공지능의 실질적 활용 가치를 높이는 데 기여할 것입니다.
인간 수준의 추론과 지식 기반 인공지능
김은솔 연구실은 인간과 유사한 추론 능력을 갖춘 인공지능 개발을 목표로, 지식 기반의 심층 논리 신경망, 멀티모달 추론, 그리고 외부 지식 체계와의 결합에 관한 연구를 활발히 수행하고 있습니다. 기존의 인공지능 모델은 단순한 패턴 인식에 머무르는 경우가 많았으나, 본 연구실은 복잡한 문제 해결 과정을 코드 스타일의 해설(rationale)로 구조화하거나, 지식 그래프를 활용하여 일반 상식 기반의 질의응답 및 추론을 가능하게 하는 새로운 접근법을 제시하고 있습니다.
특히, 시각적 연쇄 사고(Chain-of-Thought)와 같은 다단계 추론 문제에서 기존 모델의 한계를 극복하기 위해, 문제 해결 과정을 스키마 생성(schema generation)과 실현(schema instantiation)으로 분리하여 처리하는 혁신적인 네트워크 구조를 개발하였습니다. 이를 통해 이미지와 자연어, 외부 지식이 결합된 복합적인 질의응답 시스템, 의미 기반 비디오 검색 및 추천, 그리고 비디오 내 행동 예측 등 다양한 응용 분야에서 인간 수준의 추론 능력을 구현하고 있습니다.
이러한 연구는 실제로 프롬프트 기반 비디오 생성, 해석 가능한 주파수 분할 시공간 그래프 기반 비디오 인식, 효율적인 시각 질의응답 시스템 등 다양한 특허와 프로젝트로 이어지고 있습니다. 앞으로도 김은솔 연구실은 인공지능이 인간처럼 상황을 이해하고, 새로운 사실을 추론하며, 복잡한 문제를 논리적으로 해결할 수 있도록 하는 핵심 기술 개발에 앞장설 것입니다.
1
MSTR: Mutli-Scale Transformer for End-to-End Human-Object Interaction Detection
Kim, Bumsoo, Mun, Jonghwan, On, Kyoung-Woon, Shin, Minchul, Lee, Junhyun, Kim, Eun-Sol
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022
2
Video-Text Representation Learning via Differentiable Weak Temporal Alignment
Ko, Dohwan, Choi, Joonmyung, Ko, Juyeon, Noh, Shinyeong, On, Kyoung-Woon, Kim, Eun-Sol, Kim, Hyunwoo J
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022
3
Hypergraph Transformer: Weakly-supervised Multi-hop Reasoning for Knowledge-based Visual Question Answering
Heo, Yu-Jung, Kim, Eun-Sol, Choi, Woosuk, Zhang, Byoung-Tak
In In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics, 2022
1
스스로 불확실성을 자각하며 질문하면서 성장하는 에이전트 기술 개발
2
일상생활에서 필요한 상식을 기반으로 새로운 사실을 추론하며 이해하는 인공지능 기술 개발
3
지식기반 심층논리 신경망을 활용한 통합적 비디오 해석과 생성 연구