주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
article
|
·
인용수 3
·
2024Compositional Video Understanding with Spatiotemporal Structure-based Transformers
Hoyeoung Yun, Jinwoo Ahn, Minseo Kim, Eun‐Sol Kim
본 논문에서는 긴 비디오 입력을 통해 복잡한 의미 구조를 이해하기 위한 새로운 참신한 방법을 제안한다. 기존의 비디오 이해 방법들은 단기 클립에 집중해 왔으며, 합성곱 신경망 또는 트랜스포머 아키텍처를 사용하여 해당 단기 클립을 위한 시각적 표현을 얻도록 학습되어 있다. 그러나 대부분의 현실 세계 비디오는 수 분에서 수 시간에 이르는 긴 비디오로 구성되므로, 이를 작은 클립으로 분할하고 그로부터 표현을 학습하는 방식은 본질적으로 긴 비디오 전체의 의미 구조를 이해하는 데 한계를 초래한다. 본 연구에서는 객체 기반 표현을 의미 단위로 정의하고, 그들 사이에 시공간적 고차 관계를 설정함으로써 비디오의 다중 과립(다중 그레인) 의미 구조를 학습하기 위한 새로운 알고리즘을 제안한다. 제안 방법은 시공간 그래프를 학습할 수 있는 새로운 트랜스포머 아키텍처와, 각 의미 단위에 대해 분리된 특징을 학습하기 위한 조합적 학습(compositional learning) 방법을 포함한다. 제안된 방법을 사용하여, 보지 못한 비디오에 대한 조합적 일반화 이해(compositional generalization understanding)라는 도전적인 비디오 과제를 해결한다. 실험을 통해 두 개의 도전적인 비디오 데이터셋에서 새로운 최첨단 성능을 입증한다.
https://doi.org/10.1109/cvpr52733.2024.01774
Computer science
Transformer
Computer vision
Engineering
Electrical engineering
Voltage
2
article
|
·
인용수 0
·
2024A New Graph Transformer Algorithm for Leveraging External Knowledge Graph
Karl An, Eun‐Sol Kim
KIISE Transactions on Computing Practices
시각적 상식 추론은 추론 시 단순한 영상 내 객체 간의 특성이나, 관계 등 시각적 정보만을 요구하는 시각적 질문응답과 비교하여 질문 이외에 장면에 대한 맥락적 이해와 관련하여 일반 상식을 요구하는 도전적인 문제다. 본 연구에서는 일반 상식과 관련한 지식을 외부 지식 체계로부터 결합하기 위한 지식 그래프 생성 및 그래프 변환기 학습 알고리즘을 제안한다. 제안 모델에서는 외부 지식 체계인 ConceptNet으로부터 주어진 양상 정보와 관련된 지식을 검색하여 지식 그래프를 생성한다. 시각 객체와 문장 객체와 함께 지식 그래프를 정점과 간선 구분 없이 하나의 입력 단위로 그래프 변환기의 입력으로 학습한다. 본 논문에서 제안한 모델의 우수성을 입증하기 위해 시각적 상식 추론 데이터 집합을 통한 실험으로 기존 모델과 개선된 성능을 비교한다.
https://doi.org/10.5626/ktcp.2024.30.11.588
Computer science
Null graph
Graph
Transformer
Algorithm
Butterfly graph
Voltage graph
Line graph
Theoretical computer science
Electrical engineering
3
article
|
인용수 1
·
2024Structure-Aware Multimodal Sequential Learning for Visual Dialog
Youngjin Kim, Min-Jun Kim, Kyunghwan An, Jinwoo Ahn, Jaeseok Kim, Yu‐Jung Heo, Du-Seong Chang, Eun‐Sol Kim
Proceedings of the AAAI Conference on Artificial Intelligence
웹에서 방대한 양의 이미지 및 자연어 데이터를 수집할 수 있게 되면서 대규모 언어 모델(Large-scale Language Models, LLMs)의 비약적인 발전이 이루어졌다. 이러한 진전은 인간과의 대화에서 유창한 대화를 수행할 수 있는 챗봇과 대화 시스템의 출현으로 이어졌다. 인간과 에이전트 간의 상호작용을 가능하게 하는 장치의 다양성이 확장되고 텍스트 기반 대화 시스템의 성능이 향상됨에 따라, 최근에는 비주얼 다이얼로그(visual dialog)에 관한 연구가 제안되었다. 그러나 비주얼 다이얼로그는 이미지와 문장으로 구성된 쌍의 순차를 이해해야 하므로, 웹으로부터 대규모 모델 학습에 충분한 데이터를 수집하기가 어렵다. 본 논문에서는 각 양식(modality)별로 설계된 기존 대규모 모델을 활용하는 새로운 멀티모달 학습 방법을 제안하여, 소규모 비주얼 다이얼로그 데이터셋으로 비주얼 다이얼로그를 위한 모델 학습을 가능하게 한다. 제안 접근법의 핵심 아이디어는 다음과 같다. 1) 비주얼 다이얼로그 진행 과정에서의 이력 또는 문맥을 시공간 그래프(spatiotemporal graphs) 형태로 저장하고, 2) 양식별 모델과 그래프 사이에 소형 모듈레이션 블록(small modulation blocks)을 도입하여 의미적 공간을 정렬하는 것이다. 구현을 위해, 사전학습된 모델로부터 발화 생성에 필요한 관련 이미지 및 텍스트 지식을 검색하는 구조 인식형 크로스-어텐션(structure-aware cross-attention) 방법을 새롭게 제안한다. 실험 결과, 가장 도전적인 데이터셋인 COMET을 포함하여 세 개의 비주얼 다이얼로그 데이터셋에서 새로운 최신(state-of-the-art) 성능을 달성하였다.
http://dx.doi.org/10.1609/aaai.v38i12.29219
Dialog box
Computer science
Artificial intelligence
Human–computer interaction
Natural language processing
World Wide Web
4
preprint
|
인용수 1
·
2024Solution for SMART-101 Challenge of CVPR Multi-modal Algorithmic Reasoning Task 2024
Jinwoo Ahn, Jun-Hyeok Park, Min-Jun Kim, K. Kim, So-Yeong Sohn, Yunji Lee, Du-Seong Chang, Yu‐Jung Heo, Eun‐Sol Kim
arXiv (Cornell University)
본 논문에서는 Multimodal Algorithmic Reasoning Task: SMART-101 CVPR 2024 Challenge에 대한 HYU MLLAB KT Team의 해법을 제시한다. 본 SMART-101 챌린지는 기존의 일반적인 시각 질의응답 문제를 넘어, 6-8세 연령대의 아동을 위해 설계된 복잡한 비지오-언어(viiso-linguistic) 퍼즐을 다룸으로써 인간 수준의 멀티모달 이해를 달성하는 것을 목표로 한다. 이 문제를 해결하기 위해 두 가지 핵심 아이디어를 제안한다. 첫째, 대규모 언어 모델(LLM)의 추론 능력을 활용하기 위해, 주어진 시각적 단서(이미지)를 텍스트 양식에 정합(grounding)한다. 이를 위해 우리는 이미지의 맥락을 자세히 서술하는 고도로 상세한 텍스트 캡션을 생성하고, 해당 캡션을 LLM의 입력으로 사용한다. 둘째, 퍼즐 이미지의 특성상 종종 다양한 기하학적 시각 패턴을 포함하므로, 캡션 생성 과정에서 이러한 패턴이 누락되지 않도록 객체 탐지 알고리즘을 활용한다. 서로 다른 크기의 객체를 탐지할 수 있는 SAM 알고리즘을 사용하여 이러한 기하학적 패턴의 시각적 특징을 포착하고, 그 정보를 LLM의 입력으로 활용하였다. 퍼즐 분할(puzzle split) 구성 하에서, 테스트 세트에서 선택 정답률 Oacc 29.5, 챌린지 세트에서 가중 선택 정답률(WOSA) 27.1을 달성하였다.
http://arxiv.org/abs/2406.05963
Task (project management)
Modal
Computer science
Artificial intelligence
Human–computer interaction
Systems engineering
Engineering
Chemistry
5
article
|
인용수 68
·
2023Organic Memristor‐Based Flexible Neural Networks with Bio‐Realistic Synaptic Plasticity for Complex Combinatorial Optimization
Hyeongwook Kim, Mi‐Seong Kim, Aejin Lee, Hea‐Lim Park, Jaewon Jang, Jin‐Hyuk Bae, In Man Kang, Eun‐Sol Kim, Sin‐Hyung Lee
IF 14.3 (2023)
Advanced Science
기계적 유연성을 갖춘 하드웨어 신경망은 스마트 웨어러블 전자소자를 위한 차세대 컴퓨팅 시스템으로서 유망하다. 실제 응용을 위한 유연한 신경망에 관한 여러 연구가 수행되었으나, 조합 최적화를 위한 완전한 시냅스 가소성을 갖춘 시스템을 개발하는 일은 여전히 어렵다. 본 연구에서는 유기 멤리스터에서 전도성 필라멘트의 확산성 매개변수로서 금속 이온 주입 밀도를 탐구하였다. 또한, 금속 이온 주입을 체계적으로 설계한 유기 멤리스터를 사용하여 생물학적 수준에 부합하는 시냅스 가소성을 갖는 유연한 인공 시냅스를 처음으로 개발하였다. 제안된 인공 시냅스에서는 단기 가소성(STP), 장기 가소성, 항상성 가소성이 각각 독립적으로 구현되며, 이는 생물학적 대응물과 유사하다. STP와 항상성 가소성의 시간 창은 각각 이온 주입 밀도와 전기적 신호 조건에 의해 제어된다. 더 나아가, 개발된 시냅스 어레이에서 스파이크 의존적 연산 하에 복잡한 조합 최적화에 대한 안정적인 성능이 입증되었다. 복잡한 조합 최적화를 위한 유연한 뉴로모픽 시스템을 구현하기 위한 이러한 효과적인 개념은, 인공지능 시스템과 연계된 새로운 패러다임의 웨어러블 스마트 전자소자를 달성하는 데 필수적인 구성 요소이다.
https://doi.org/10.1002/advs.202300659
Neuromorphic engineering
Memristor
Synapse
Computer science
Synaptic plasticity
Artificial neural network
Materials science
Homeostatic plasticity
Nanotechnology
Artificial intelligence