RnDCircle Logo
김은솔 연구실
한양대학교 컴퓨터소프트웨어학부 김은솔 교수
Transformer
Deformable Attention
Self-Supervised Learning
김은솔 교수 연구실
기본 정보
연구 분야
프로젝트
논문
구성원

김은솔 연구실

한양대학교 컴퓨터소프트웨어학부 김은솔 교수

김은솔 연구실은 Transformer 기반 시각 인지 모델과 지식 연계 추론을 중심으로 연구를 수행합니다. 멀티스케일 표현과 deformable attention을 이용해 사람-물체 상호작용 탐지, 비디오 장면 경계 인식, 효율적 VideoQA를 학습합니다. 또한 spatiotemporal 구조와 self-supervised pretext task를 통해 장기 비디오의 합성 의미 구조를 분해·해석하는 방법을 개발합니다. 아울러 ConceptNet 등 외부 지식에 그래프 변환기를 결합하고 멀티모달 대화에서 텍스트-시각 정렬을 강화합니다. 일부 연구에서는 유기 멤리스터 기반 뉴로모픽 시냅스 가소성으로 조합 최적화 하드웨어를 구현합니다.

TransformerDeformable AttentionSelf-Supervised LearningVideo UnderstandingKnowledge Graph 기반 추론
대표 연구 분야
연구 영역 전체보기
멀티스케일·변형가능 어텐션 기반 비전 및 비디오 추론 연구 thumbnail
멀티스케일·변형가능 어텐션 기반 비전 및 비디오 추론 연구
Vision and Video Inference with Multi-Scale and Deformable Attention
연구 분야 상세보기
연구 성과 추이
표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

5개년 연도별 논문 게재 수

26총합

5개년 연도별 피인용 수

673총합
주요 논문
5
논문 전체보기
1
article
|
·
인용수 3
·
2024
Compositional Video Understanding with Spatiotemporal Structure-based Transformers
Hoyeoung Yun, Jinwoo Ahn, Minseo Kim, Eun‐Sol Kim
본 논문에서는 긴 비디오 입력을 통해 복잡한 의미 구조를 이해하기 위한 새로운 참신한 방법을 제안한다. 기존의 비디오 이해 방법들은 단기 클립에 집중해 왔으며, 합성곱 신경망 또는 트랜스포머 아키텍처를 사용하여 해당 단기 클립을 위한 시각적 표현을 얻도록 학습되어 있다. 그러나 대부분의 현실 세계 비디오는 수 분에서 수 시간에 이르는 긴 비디오로 구성되므로, 이를 작은 클립으로 분할하고 그로부터 표현을 학습하는 방식은 본질적으로 긴 비디오 전체의 의미 구조를 이해하는 데 한계를 초래한다. 본 연구에서는 객체 기반 표현을 의미 단위로 정의하고, 그들 사이에 시공간적 고차 관계를 설정함으로써 비디오의 다중 과립(다중 그레인) 의미 구조를 학습하기 위한 새로운 알고리즘을 제안한다. 제안 방법은 시공간 그래프를 학습할 수 있는 새로운 트랜스포머 아키텍처와, 각 의미 단위에 대해 분리된 특징을 학습하기 위한 조합적 학습(compositional learning) 방법을 포함한다. 제안된 방법을 사용하여, 보지 못한 비디오에 대한 조합적 일반화 이해(compositional generalization understanding)라는 도전적인 비디오 과제를 해결한다. 실험을 통해 두 개의 도전적인 비디오 데이터셋에서 새로운 최첨단 성능을 입증한다.
https://doi.org/10.1109/cvpr52733.2024.01774
Computer science
Transformer
Computer vision
Engineering
Electrical engineering
Voltage
2
article
|
·
인용수 0
·
2024
A New Graph Transformer Algorithm for Leveraging External Knowledge Graph
Karl An, Eun‐Sol Kim
KIISE Transactions on Computing Practices
시각적 상식 추론은 추론 시 단순한 영상 내 객체 간의 특성이나, 관계 등 시각적 정보만을 요구하는 시각적 질문응답과 비교하여 질문 이외에 장면에 대한 맥락적 이해와 관련하여 일반 상식을 요구하는 도전적인 문제다. 본 연구에서는 일반 상식과 관련한 지식을 외부 지식 체계로부터 결합하기 위한 지식 그래프 생성 및 그래프 변환기 학습 알고리즘을 제안한다. 제안 모델에서는 외부 지식 체계인 ConceptNet으로부터 주어진 양상 정보와 관련된 지식을 검색하여 지식 그래프를 생성한다. 시각 객체와 문장 객체와 함께 지식 그래프를 정점과 간선 구분 없이 하나의 입력 단위로 그래프 변환기의 입력으로 학습한다. 본 논문에서 제안한 모델의 우수성을 입증하기 위해 시각적 상식 추론 데이터 집합을 통한 실험으로 기존 모델과 개선된 성능을 비교한다.
https://doi.org/10.5626/ktcp.2024.30.11.588
Computer science
Null graph
Graph
Transformer
Algorithm
Butterfly graph
Voltage graph
Line graph
Theoretical computer science
Electrical engineering
3
article
|
인용수 1
·
2024
Structure-Aware Multimodal Sequential Learning for Visual Dialog
Youngjin Kim, Min-Jun Kim, Kyunghwan An, Jinwoo Ahn, Jaeseok Kim, Yu‐Jung Heo, Du-Seong Chang, Eun‐Sol Kim
Proceedings of the AAAI Conference on Artificial Intelligence
웹에서 방대한 양의 이미지 및 자연어 데이터를 수집할 수 있게 되면서 대규모 언어 모델(Large-scale Language Models, LLMs)의 비약적인 발전이 이루어졌다. 이러한 진전은 인간과의 대화에서 유창한 대화를 수행할 수 있는 챗봇과 대화 시스템의 출현으로 이어졌다. 인간과 에이전트 간의 상호작용을 가능하게 하는 장치의 다양성이 확장되고 텍스트 기반 대화 시스템의 성능이 향상됨에 따라, 최근에는 비주얼 다이얼로그(visual dialog)에 관한 연구가 제안되었다. 그러나 비주얼 다이얼로그는 이미지와 문장으로 구성된 쌍의 순차를 이해해야 하므로, 웹으로부터 대규모 모델 학습에 충분한 데이터를 수집하기가 어렵다. 본 논문에서는 각 양식(modality)별로 설계된 기존 대규모 모델을 활용하는 새로운 멀티모달 학습 방법을 제안하여, 소규모 비주얼 다이얼로그 데이터셋으로 비주얼 다이얼로그를 위한 모델 학습을 가능하게 한다. 제안 접근법의 핵심 아이디어는 다음과 같다. 1) 비주얼 다이얼로그 진행 과정에서의 이력 또는 문맥을 시공간 그래프(spatiotemporal graphs) 형태로 저장하고, 2) 양식별 모델과 그래프 사이에 소형 모듈레이션 블록(small modulation blocks)을 도입하여 의미적 공간을 정렬하는 것이다. 구현을 위해, 사전학습된 모델로부터 발화 생성에 필요한 관련 이미지 및 텍스트 지식을 검색하는 구조 인식형 크로스-어텐션(structure-aware cross-attention) 방법을 새롭게 제안한다. 실험 결과, 가장 도전적인 데이터셋인 COMET을 포함하여 세 개의 비주얼 다이얼로그 데이터셋에서 새로운 최신(state-of-the-art) 성능을 달성하였다.
http://dx.doi.org/10.1609/aaai.v38i12.29219
Dialog box
Computer science
Artificial intelligence
Human–computer interaction
Natural language processing
World Wide Web
최신 정부 과제
18
과제 전체보기
1
2023년 3월-2027년 12월
|5,915,000,000
관측기반 온실가스 공간정보지도 구축 플랫폼 기술개발
- 최종 목표: 관측 기반의 온실가스(CO2, CH4) 공간정보지도 플랫폼 기술 개발- 상세 목표: A. 한국형 하이브리드 국가 탄소수지 산정 및 표출 기술 개발B. 시공간 상세격자형 탄소 배출량 산정 및 검증 기술 개발C. 시공간 상세격자형 탄소 흡수량 산정 및 검증 기술 개발D. 딥러닝 기법 기반 미래 탄소 배출량 예측 및 고해상도 시나리오 배출 인벤토...
탄소수지
탄소공간정보지도
하이브리드 인벤토리
이산화탄소
메탄
2
주관|
2023년 3월-2027년 12월
|6,004,000,000
관측기반 온실가스 공간정보지도 구축 플랫폼 기술개발
* 국제 표준을 선도하는 한국형 하이브리드 인벤토리 개발 본 사업을 통해 통계 기반 활동도 자료로 산정하는 상향식 탄소 배출량 인벤토리와 관측 및 모델링으로 탄소 배출량을 산정하는 하향식으로 분리되어 있던 기존 방법론을 개선·통합하고, 자료동화, 빅데이터 분석, 머신러닝과 같은 첨단 기술로 배출량과 흡수량을 고해상도의 시공간 규모로 산정하여 탄소수지를 파악할 수 있는 한국형 하이브리드 인벤토리를 개발하고자 함 본 하이브리드 한국형 인벤토리는 아래 5개의 요소 기술로 구성되어 있음: 1) 시공간 상세격자형 탄소 배출량 산정 및 검증 기술 2) 시공간 상세격자형 탄소 흡수량 산정 및 검증 기술 3) 딥러닝 기반 미래 탄소 배출량 예측 및 고해상도 시나리오 배출 인벤토리 4) 딥러닝 기반 미래 탄소 흡수량 예측 및 고해상도 시나리오 흡수 인벤토리 5) 동일한 시공간 규모에서 탄소의 순배출량에 해당하는 탄소수지(배출량 - 흡수량)을 산정하는 기술 * 하이브리드 인벤토리 기반 온실가스(CO2, CH4) 공간정보지도 개발 개발된 한국형 하이브리드 인벤토리 자료를 통합하고 분석할 수 있는 플랫폼을 구축하여 기후변화 및 신기후 대응 정책에 활용함으로써 국가 기후위기 대응을 지원하고자 함 지자체 탄소중립을 지원할 수 있는 과학기반의 탄소 배출/흡수량 정보를 산출함으로써 지역에서의 원활한 탄소중립 정책 개발 및 이행을 유도함 * 국가 및 지자체 탄소중립 이행의 과학적 평가 본 사업에서는 탄소중립 정책효과/이행실적의 과학적 평가와 달성도 진단 기술을 개발하여 국가 및 지자체 탄소중립 이행을 지원하고자 함. 본 사업에서 개발될 정책효과/이행실적 평가 기술은 기존의 온실가스 이행점검체계와 아래와 같은 차이점이 있음. 1) 부문별이 아닌 개별 정책별 감축효과 산정 및 이행실적 점검 체계 개발 2) 국가 단위가 아닌 지자체 단위의 정책효과 및 이행실적 평가 체계 개발 개발된 탄소중립 정책효과/이행실적 평가 기술은 1km×1km 및 월 단위로 상세화된 개선된 하이브리드 인벤토리를 평가에 활용하여, 국가 및 지자체 정책 계획 수립 시 정책별 감축 효과 산정 및 정책 간 우선순위 선정 근거 자료를 도출할 수 있음
탄소수지
탄소공간정보지도
하이브리드 인벤토리
이산화탄소
메탄
3
2023년 3월-2027년 12월
|8,727,000,000
관측기반 온실가스 공간정보지도 구축 플랫폼 기술개발
- 최종 목표: 관측 기반의 온실가스(CO2, CH4) 공간정보지도 플랫폼 기술 개발- 상세 목표: A. 한국형 하이브리드 국가 탄소수지 산정 및 표출 기술 개발B. 시공간 상세격자형 탄소 배출량 산정 및 검증 기술 개발C. 시공간 상세격자형 탄소 흡수량 산정 및 검증 기술 개발D. 딥러닝 기법 기반 미래 탄소 배출량 예측 및 고해상도 시나리오 배출 인벤토...
탄소수지
탄소공간정보지도
하이브리드 인벤토리
이산화탄소
메탄

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.