김은솔 교수 연구실 | 한양대학교 컴퓨터소프트웨어학부

김은솔 연구실

한양대학교 컴퓨터소프트웨어학부 김은솔 교수

Transformer

Deformable Attention

Self-Supervised Learning

김은솔 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

홈

김은솔 연구실

한양대학교 컴퓨터소프트웨어학부 김은솔 교수

김은솔 연구실은 Transformer 기반 시각 인지 모델과 지식 연계 추론을 중심으로 연구를 수행합니다. 멀티스케일 표현과 deformable attention을 이용해 사람-물체 상호작용 탐지, 비디오 장면 경계 인식, 효율적 VideoQA를 학습합니다. 또한 spatiotemporal 구조와 self-supervised pretext task를 통해 장기 비디오의 합성 의미 구조를 분해·해석하는 방법을 개발합니다. 아울러 ConceptNet 등 외부 지식에 그래프 변환기를 결합하고 멀티모달 대화에서 텍스트-시각 정렬을 강화합니다. 일부 연구에서는 유기 멤리스터 기반 뉴로모픽 시냅스 가소성으로 조합 최적화 하드웨어를 구현합니다.

TransformerDeformable AttentionSelf-Supervised LearningVideo UnderstandingKnowledge Graph 기반 추론

대표 연구 분야

연구 영역 전체보기

멀티스케일·변형가능 어텐션 기반 비전 및 비디오 추론 연구

Vision and Video Inference with Multi-Scale and Deformable Attention

연구 분야 상세보기

멀티스케일·변형가능 어텐션 기반 비전 및 비디오 추론 연구

Vision and Video Inference with Multi-Scale and Deformable Attention

연구 분야 상세보기

상식·지식그래프 기반 멀티모달 복합 추론 및 대화 연구

Multimodal Complex Reasoning with Commonsense and Knowledge Graphs

연구 분야 상세보기

유기 멤리스터 기반 생체 유사 시냅스 가소성 뉴로모픽 연산 연구

Organic Memristor Neuromorphic Computing with Bio-Realistic Synaptic Plasticity

연구 분야 상세보기

연구 성과 추이

표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

5개년 연도별 논문 게재 수

26총합

5개년 연도별 피인용 수

673총합

주요 논문

논문 전체보기

article

인용수 3

2024

Compositional Video Understanding with Spatiotemporal Structure-based Transformers

Hoyeoung Yun, Jinwoo Ahn, Minseo Kim, Eun‐Sol Kim

본 논문에서는 긴 비디오 입력을 통해 복잡한 의미 구조를 이해하기 위한 새로운 참신한 방법을 제안한다. 기존의 비디오 이해 방법들은 단기 클립에 집중해 왔으며, 합성곱 신경망 또는 트랜스포머 아키텍처를 사용하여 해당 단기 클립을 위한 시각적 표현을 얻도록 학습되어 있다. 그러나 대부분의 현실 세계 비디오는 수 분에서 수 시간에 이르는 긴 비디오로 구성되므로, 이를 작은 클립으로 분할하고 그로부터 표현을 학습하는 방식은 본질적으로 긴 비디오 전체의 의미 구조를 이해하는 데 한계를 초래한다. 본 연구에서는 객체 기반 표현을 의미 단위로 정의하고, 그들 사이에 시공간적 고차 관계를 설정함으로써 비디오의 다중 과립(다중 그레인) 의미 구조를 학습하기 위한 새로운 알고리즘을 제안한다. 제안 방법은 시공간 그래프를 학습할 수 있는 새로운 트랜스포머 아키텍처와, 각 의미 단위에 대해 분리된 특징을 학습하기 위한 조합적 학습(compositional learning) 방법을 포함한다. 제안된 방법을 사용하여, 보지 못한 비디오에 대한 조합적 일반화 이해(compositional generalization understanding)라는 도전적인 비디오 과제를 해결한다. 실험을 통해 두 개의 도전적인 비디오 데이터셋에서 새로운 최첨단 성능을 입증한다.

https://doi.org/10.1109/cvpr52733.2024.01774

Computer science

Transformer

Computer vision

Engineering

Electrical engineering

Voltage

article

인용수 0

2024

A New Graph Transformer Algorithm for Leveraging External Knowledge Graph

Karl An, Eun‐Sol Kim

KIISE Transactions on Computing Practices

시각적 상식 추론은 추론 시 단순한 영상 내 객체 간의 특성이나, 관계 등 시각적 정보만을 요구하는 시각적 질문응답과 비교하여 질문 이외에 장면에 대한 맥락적 이해와 관련하여 일반 상식을 요구하는 도전적인 문제다. 본 연구에서는 일반 상식과 관련한 지식을 외부 지식 체계로부터 결합하기 위한 지식 그래프 생성 및 그래프 변환기 학습 알고리즘을 제안한다. 제안 모델에서는 외부 지식 체계인 ConceptNet으로부터 주어진 양상 정보와 관련된 지식을 검색하여 지식 그래프를 생성한다. 시각 객체와 문장 객체와 함께 지식 그래프를 정점과 간선 구분 없이 하나의 입력 단위로 그래프 변환기의 입력으로 학습한다. 본 논문에서 제안한 모델의 우수성을 입증하기 위해 시각적 상식 추론 데이터 집합을 통한 실험으로 기존 모델과 개선된 성능을 비교한다.

https://doi.org/10.5626/ktcp.2024.30.11.588

Computer science

Null graph

Graph

Transformer

Algorithm

Butterfly graph

Voltage graph

Line graph

Theoretical computer science

Electrical engineering

article

인용수 1

2024

Structure-Aware Multimodal Sequential Learning for Visual Dialog

Youngjin Kim, Min-Jun Kim, Kyunghwan An, Jinwoo Ahn, Jaeseok Kim, Yu‐Jung Heo, Du-Seong Chang, Eun‐Sol Kim

Proceedings of the AAAI Conference on Artificial Intelligence

웹에서 방대한 양의 이미지 및 자연어 데이터를 수집할 수 있게 되면서 대규모 언어 모델(Large-scale Language Models, LLMs)의 비약적인 발전이 이루어졌다. 이러한 진전은 인간과의 대화에서 유창한 대화를 수행할 수 있는 챗봇과 대화 시스템의 출현으로 이어졌다. 인간과 에이전트 간의 상호작용을 가능하게 하는 장치의 다양성이 확장되고 텍스트 기반 대화 시스템의 성능이 향상됨에 따라, 최근에는 비주얼 다이얼로그(visual dialog)에 관한 연구가 제안되었다. 그러나 비주얼 다이얼로그는 이미지와 문장으로 구성된 쌍의 순차를 이해해야 하므로, 웹으로부터 대규모 모델 학습에 충분한 데이터를 수집하기가 어렵다. 본 논문에서는 각 양식(modality)별로 설계된 기존 대규모 모델을 활용하는 새로운 멀티모달 학습 방법을 제안하여, 소규모 비주얼 다이얼로그 데이터셋으로 비주얼 다이얼로그를 위한 모델 학습을 가능하게 한다. 제안 접근법의 핵심 아이디어는 다음과 같다. 1) 비주얼 다이얼로그 진행 과정에서의 이력 또는 문맥을 시공간 그래프(spatiotemporal graphs) 형태로 저장하고, 2) 양식별 모델과 그래프 사이에 소형 모듈레이션 블록(small modulation blocks)을 도입하여 의미적 공간을 정렬하는 것이다. 구현을 위해, 사전학습된 모델로부터 발화 생성에 필요한 관련 이미지 및 텍스트 지식을 검색하는 구조 인식형 크로스-어텐션(structure-aware cross-attention) 방법을 새롭게 제안한다. 실험 결과, 가장 도전적인 데이터셋인 COMET을 포함하여 세 개의 비주얼 다이얼로그 데이터셋에서 새로운 최신(state-of-the-art) 성능을 달성하였다.

http://dx.doi.org/10.1609/aaai.v38i12.29219

Dialog box

Computer science

Artificial intelligence

Human–computer interaction

Natural language processing

World Wide Web

최신 정부 과제

과제 전체보기

2023년 3월-2027년 12월

|5,915,000,000원

관측기반 온실가스 공간정보지도 구축 플랫폼 기술개발

- 최종 목표: 관측 기반의 온실가스(CO2, CH4) 공간정보지도 플랫폼 기술 개발- 상세 목표: A. 한국형 하이브리드 국가 탄소수지 산정 및 표출 기술 개발B. 시공간 상세격자형 탄소 배출량 산정 및 검증 기술 개발C. 시공간 상세격자형 탄소 흡수량 산정 및 검증 기술 개발D. 딥러닝 기법 기반 미래 탄소 배출량 예측 및 고해상도 시나리오 배출 인벤토...

탄소수지

탄소공간정보지도

하이브리드 인벤토리

이산화탄소

메탄

주관|

2023년 3월-2027년 12월

|6,004,000,000원

관측기반 온실가스 공간정보지도 구축 플랫폼 기술개발

* 국제 표준을 선도하는 한국형 하이브리드 인벤토리 개발 본 사업을 통해 통계 기반 활동도 자료로 산정하는 상향식 탄소 배출량 인벤토리와 관측 및 모델링으로 탄소 배출량을 산정하는 하향식으로 분리되어 있던 기존 방법론을 개선·통합하고, 자료동화, 빅데이터 분석, 머신러닝과 같은 첨단 기술로 배출량과 흡수량을 고해상도의 시공간 규모로 산정하여 탄소수지를 파악할 수 있는 한국형 하이브리드 인벤토리를 개발하고자 함 본 하이브리드 한국형 인벤토리는 아래 5개의 요소 기술로 구성되어 있음: 1) 시공간 상세격자형 탄소 배출량 산정 및 검증 기술 2) 시공간 상세격자형 탄소 흡수량 산정 및 검증 기술 3) 딥러닝 기반 미래 탄소 배출량 예측 및 고해상도 시나리오 배출 인벤토리 4) 딥러닝 기반 미래 탄소 흡수량 예측 및 고해상도 시나리오 흡수 인벤토리 5) 동일한 시공간 규모에서 탄소의 순배출량에 해당하는 탄소수지(배출량 - 흡수량)을 산정하는 기술 * 하이브리드 인벤토리 기반 온실가스(CO2, CH4) 공간정보지도 개발 개발된 한국형 하이브리드 인벤토리 자료를 통합하고 분석할 수 있는 플랫폼을 구축하여 기후변화 및 신기후 대응 정책에 활용함으로써 국가 기후위기 대응을 지원하고자 함 지자체 탄소중립을 지원할 수 있는 과학기반의 탄소 배출/흡수량 정보를 산출함으로써 지역에서의 원활한 탄소중립 정책 개발 및 이행을 유도함 * 국가 및 지자체 탄소중립 이행의 과학적 평가 본 사업에서는 탄소중립 정책효과/이행실적의 과학적 평가와 달성도 진단 기술을 개발하여 국가 및 지자체 탄소중립 이행을 지원하고자 함. 본 사업에서 개발될 정책효과/이행실적 평가 기술은 기존의 온실가스 이행점검체계와 아래와 같은 차이점이 있음. 1) 부문별이 아닌 개별 정책별 감축효과 산정 및 이행실적 점검 체계 개발 2) 국가 단위가 아닌 지자체 단위의 정책효과 및 이행실적 평가 체계 개발 개발된 탄소중립 정책효과/이행실적 평가 기술은 1km×1km 및 월 단위로 상세화된 개선된 하이브리드 인벤토리를 평가에 활용하여, 국가 및 지자체 정책 계획 수립 시 정책별 감축 효과 산정 및 정책 간 우선순위 선정 근거 자료를 도출할 수 있음

탄소수지

탄소공간정보지도

하이브리드 인벤토리

이산화탄소

메탄

2023년 3월-2027년 12월

|8,727,000,000원

관측기반 온실가스 공간정보지도 구축 플랫폼 기술개발

탄소수지

탄소공간정보지도

하이브리드 인벤토리

이산화탄소

메탄

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)