주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
Preprint
|
인용수 0
·
2026A Scalable Inter-edge Correlation Modeling in CopulaGNN for Link Sign Prediction
Jinho Sung, Myunggeum Jee, Joonseok Lee
Open MIND
서명 그래프(signed graph)에서의 링크 부호 예측(link sign prediction)은 간선(edge)이 나타내는 관계가 양(+)인지 음(-)인지의 여부를 판단하는 과제이다. 음의 간선이 존재하면 인접한 노드가 유사하다는 그래프 동질성(homophily) 가정이 위배되므로, 이를 보조 구조 없이 처리하기에는 기존의 정형(regular) 그래프 방법을 적용하기 어렵다. 우리는 Gaussian copula와 그에 대응하는 상관 행렬(correlation matrix)을 통해 간선들 간에 존재하는 잠재적 통계적 의존성을 직접 모델링하고자 하며, 이를 CopulaGNN(Ma et al., 2021)을 확장하는 방식으로 수행한다. 그러나 간선-간선 관계를 단순하게 모델링하면, 중간 규모의 그래프만으로도 계산이 비현실적으로 어렵다. 이를 해결하기 위해 1) 상관 행렬을 간선 임베딩(edge embeddings)의 그래미안(Gramian)으로 표현하여 파라미터 수를 크게 줄이고, 2) 조건부 확률 분포를 재구성함으로써 추론 비용을 극적으로 감소시키는 방법을 제안한다. 또한 본 방법의 확장성을 이론적으로 검증하여 선형 수렴(linear convergence)을 증명함으로써 그 가능성을 확인한다. 아울러 광범위한 실험 결과, 본 방법은 기준 모델(baselines)보다 유의하게 더 빠른 수렴을 달성하면서도, 최첨단(state-of-the-art) 모델과 견줄 만한 예측 성능을 유지함을 보여준다.
https://doi.org/10.48550/arxiv.2601.19175
Inference
Scalability
Graph
Homophily
Gramian matrix
Correlation
Gaussian
Signed graph
Latent variable
Probability distribution
2
Article
|
인용수 0
·
2026A Scalable Inter-edge Correlation Modeling in CopulaGNN for Link Sign Prediction
Jinho Sung, Myunggeum Jee, Joonseok Lee
arXiv (Cornell University)
서명 그래프(signed graph)에서의 링크 부호 예측(Link sign prediction)은 간선이 나타내는 관계가 양(positive)인지 음(negative)인지 판별하는 과제이다. 음의 간선이 존재하면 인접한 노드가 유사하다는 그래프 동질성 가정(graph homophily assumption)을 위반하므로, 이를 처리하기 위한 보조 구조가 없으면 일반적인 그래프 방법을 적용할 수 없었다. 본 연구는 CopulaGNN(Ma et al., 2021)을 확장하여, 가우시안 코퓰라(Gaussian copula)와 그에 대응하는 상관 행렬(correlation matrix)을 통해 간선들 간의 잠재된 통계적 의존성을 직접적으로 모델링하고자 한다. 그러나 간선-간선 관계를 단순하게 모델링하면 중간 규모의 그래프에 대해서도 계산적으로 불가능한 수준의 복잡도가 발생한다. 이를 해결하기 위해 우리는 1) 상관 행렬을 간선 임베딩(edge embeddings)의 그람 행렬(Gramian)로 표현하여 매개변수 수를 크게 줄이고, 2) 조건부 확률 분포를 재구성함으로써 추론 비용을 극적으로 감소시키는 방법을 제안한다. 또한 본 방법의 확장성을 이론적으로 검증하기 위해 선형 수렴(linear convergence)을 증명한다. 아울러 광범위한 실험 결과, 본 방법은 기준 방법들(baselines)보다 유의하게 더 빠른 수렴을 달성하면서도 최첨단(state-of-the-art) 모델들과 경쟁력 있는 예측 성능을 유지함을 보여준다.
http://arxiv.org/abs/2601.19175
Inference
Scalability
Graph
Homophily
Gramian matrix
Correlation
Gaussian
Signed graph
Latent variable
Probability distribution
3
Article
|
인용수 0
·
2026TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization
Sumin Kim, Hyemin Jeong, Kang Mingu, Yejin Kim, Yoori Oh, Joonseok Lee
ArXiv.org
비디오 콘텐츠의 기하급수적 증가로 인해 긴 비디오에서 핵심 정보를 효율적으로 추출하기 위한 효과적인 비디오 요약이 필요하다. 그러나 현재의 접근법은 정적인 또는 양식(modality)에 비의존적인 융합 전략을 주로 사용하기 때문에 복잡한 비디오를 충분히 이해하는 데 어려움을 겪는다. 이러한 방법들은 비디오 데이터에 내재된 역동적이며 프레임에 의존하는 양식별 중요도(modality saliency)의 변화를 고려하지 못한다. 이러한 한계를 극복하기 위해, 우리는 프레임 수준에서 시각, 텍스트, 오디오 양식의 기여도를 적응적으로 가중치화하고 융합하는 새로운 아키텍처 TripleSumm을 제안한다. 또한 다중모달 비디오 요약 연구를 위한 중요한 병목은 포괄적인 벤치마크의 부재였다. 이 병목을 해결하기 위해, 우리는 세 가지 양식을 모두 제공하는 최초의 대규모 벤치마크인 MoSu( Most Replayed Multimodal Video Summarization)를 도입한다. 광범위한 실험 결과, TripleSumm은 최신 성능을 달성하며 MoSu를 포함한 네 개의 벤치마크에서 기존 방법들보다 유의미한 큰 폭으로 성능이 향상됨을 보여준다. 우리의 코드와 데이터셋은 https://github.com/smkim37/TripleSumm 에서 제공된다.
http://arxiv.org/abs/2603.01169
Automatic summarization
Benchmark (surveying)
Key (lock)
Margin (machine learning)
Frame (networking)
Bottleneck
Modality (human–computer interaction)
Key frame
4
Preprint
|
인용수 0
·
2026Towards Motion-aware Referring Image Segmentation
Chaeyun Kim, Seunghoon Yi, Yejin Kim, Yohan Jo, Joonseok Lee
arXiv (Cornell University)
지시 이미지 분할(Referring Image Segmentation, RIS)은 텍스트 설명을 바탕으로 이미지 속의 객체를 식별해야 한다. 우리는 기존 방법들이 외형(appearance) 기반 질의에 비해 동작 관련 질의에서 유의하게 성능이 저하됨을 관찰한다. 이를 해결하기 위해, 첫째로 우리는 추가적인 주석 없이도 원래 캡션에서 동작 중심 표현(motion-centric phrases)을 추출하는 효율적인 데이터 증강 기법을 처음으로 제안하여, 모델이 더 많은 동작 표현에 노출되도록 한다. 둘째로, 동일한 객체는 맥락에 따라 서로 다르게 기술될 수 있으므로, 단일 양식(unimodal) 표현이 아니라 결합된 이미지-텍스트 임베딩(image-text embeddings)에서 수행되는 다중모달 방사 대조 학습(Multimodal Radial Contrastive Learning, MRaCL)을 제안한다. 포괄적인 평가를 위해 동작 중심 질의에 초점을 둔 새로운 테스트 분할(test split)을 도입하고, 객체가 주로 행위(action)에 의해 구분되는 새로운 벤치마크인 M-Bench를 제안한다. 광범위한 실험 결과, 본 방법은 여러 RIS 모델에서 동작 중심 질의에 대한 성능을 실질적으로 향상시키면서도 외형 기반 기술(description)에서는 경쟁력 있는 결과를 유지함을 보여준다. 코드는 https://github.com/snuviplab/MRaCL 에서 제공된다.
https://doi.org/10.48550/arxiv.2603.17413
Segmentation
Benchmark (surveying)
Object (grammar)
Image segmentation
Scheme (mathematics)
Image (mathematics)
Pattern recognition (psychology)
Motion (physics)
5
Preprint
|
인용수 0
·
2026TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization
Sumin Kim, Hyemin Jeong, Kang Mingu, Yejin Kim, Yoori Oh, Joonseok Lee
arXiv (Cornell University)
비디오 콘텐츠의 기하급수적 증가는 장시간 비디오로부터 핵심 정보를 효율적으로 추출하기 위한 효과적인 비디오 요약을 필요로 한다. 그러나 현재의 접근법은 주로 정적인 또는 양식(modality)에 비의존적인 융합 전략을 사용하기 때문에 복잡한 비디오를 충분히 이해하는 데 어려움을 겪는다. 이러한 방법들은 비디오 데이터에 내재된 양식의 중요도(modality saliency)가 프레임에 따라 역동적으로 변화한다는 점을 반영하지 못한다. 이러한 한계를 극복하기 위해, 우리는 프레임 수준에서 시각, 텍스트, 오디오 양식의 기여도를 적응적으로 가중하고 융합하는 새로운 아키텍처인 TripleSumm을 제안한다. 또한 멀티모달 비디오 요약에 관한 연구에서 중요한 병목은 포괄적인 벤치마크의 부재였다. 이 병목을 해결하기 위해, 우리는 세 가지 양식을 모두 제공하는 최초의 대규모 벤치마크인 MoSu (Most Replayed Multimodal Video Summarization)를 도입한다. 광범위한 실험 결과, TripleSumm은 네 개의 벤치마크( MoSu 포함 )에서 기존 방법들보다 유의미한 격차로 더 우수한 성능을 달성하며, 최신(state-of-the-art) 성능을 보인다. 우리의 코드와 데이터셋은 https://github.com/smkim37/TripleSumm 에서 제공된다.
https://doi.org/10.48550/arxiv.2603.01169
Automatic summarization
Benchmark (surveying)
Key (lock)
Margin (machine learning)
Frame (networking)
Bottleneck
Modality (human–computer interaction)
Key frame