김선주 교수 연구실 | 연세대학교 컴퓨터과학과

김선주 연구실

연세대학교 컴퓨터과학과 김선주 교수

의료영상 분석

혈관 중심선 추적

Diffusion Models

김선주 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

홈

김선주 연구실

연세대학교 컴퓨터과학과 김선주 교수

김선주 연구실은 컴퓨터과학 기반의 시각 정보 처리 기술을 중심으로 영상 인식, 영상 처리, 계산사진학 계열의 연구를 수행합니다. 특히 3D TOF MRA에서 혈관 분절 중심선을 자동 추출하기 위해 그래프 기반 경로탐색을 적용하고, 고난도 곡선 혈관의 다중 중심선 문제를 다루는 방법을 개발합니다. 또한 확산모델을 활용한 고해상도 이미지 생성, 3D 확산 표현과 장면 재구성, 단안 3D 키포인트 추정 연구를 진행합니다. 더불어 스트리밍 환경의 temporal action localization과 학습비재학습 비디오 추론 분할 같은 비디오 이해 기술을 함께 연구합니다.

의료영상 분석혈관 중심선 추적Diffusion ModelsLatent space super-resolution3D 확산모델

대표 연구 분야

연구 영역 전체보기

혈관 중심선 추출을 위한 그래프 기반 경로탐색 의료영상 분석 연구

Graph-based Path Finding for Vascular Centerline Extraction in Medical Imaging

연구 분야 상세보기

혈관 중심선 추출을 위한 그래프 기반 경로탐색 의료영상 분석 연구

Graph-based Path Finding for Vascular Centerline Extraction in Medical Imaging

연구 분야 상세보기

잠재공간 기반 확산모델 고해상도 및 3D 생성 연구

Latent Space Diffusion for Super-Resolution and 3D Generation

연구 분야 상세보기

실시간 비디오 이해를 위한 시간적 행동탐지 및 학습비재학습 추론 분할 연구

Real-time Video Understanding for Temporal Action Localization and Training-free Video Reasoning Seg

연구 분야 상세보기

연구 성과 추이

표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

5개년 연도별 논문 게재 수

69총합

5개년 연도별 피인용 수

798총합

주요 논문

논문 전체보기

article

인용수 1

2025

Exploring Scalability of Self-Training for Open-Vocabulary Temporal Action Localization

Jeongseok Hyun, Su Ho Han, Hyolim Kang, Joon‐Young Lee, Seon Joo Kim

시간적 행위 국소화(temporal action localization, TAL)에서 어휘 크기는 대규모 주석 데이터셋의 희소성으로 인해 제한된다. 이를 극복하기 위해 최근 연구들은 CLIP과 같은 시각-언어 모델(vision-language models, VLMs)을 통합하여 개방어휘 TAL(openvocabulary TAL, OV-TAL)을 수행한다. 그러나 광범위한 데이터셋에서 학습된 VLM의 성공에도 불구하고, 기존의 OV-TAL 방법들은 여전히 한정된 규모의 인간 라벨 TAL 데이터셋에 의존하여 행위 국소화기를 학습하며, 이로 인해 일반화 가능성이 제한된다. 본 논문에서는 라벨이 없는 YouTube 영상을 활용한 자기학습(self-training)의 확장성을 OV-TAL에서 탐구한다. 우리의 접근 방식은 두 단계로 구성된다: (1) 인간이 라벨링한 TAL 데이터셋에서 클래스 비특정(class-agnostic) 행위 국소화기를 학습하여 라벨이 없는 영상에 대한 의사 라벨(pseudo-labels)을 생성하고, (2) 그 후 대규모 의사 라벨링된 데이터셋을 사용하여 국소화기를 학습한다. 광범위한 실험을 통해, 자기학습에서 웹 스케일 비디오를 활용하면 행위 국소화기의 일반화가 유의미하게 향상됨을 확인하였다. 또한 기존 OV-TAL 평가 체계의 한계를 규명하고, 철저한 평가를 위한 새로운 벤치마크를 제안한다. 마지막으로, 새 벤치마크에서 대규모 멀티모달 모델인 Gemini-1.5의 TAL 성능을 시연한다. 코드는 https://github.com/HYUNJS/STOV-TAL 에 공개되어 있다.

https://doi.org/10.1109/wacv61041.2025.00911

Computer science

Training (meteorology)

Scalability

Vocabulary

Action (physics)

Artificial intelligence

Natural language processing

Speech recognition

Linguistics

Database

article

인용수 3

2025

Latent Space Super-Resolution for Higher-Resolution Image Generation with Diffusion Models

Jinho Jeong, Sangmin Han, Jinwoo Kim, Seon Joo Kim

본 논문에서는 잠재(latent) 공간에서 초해상도를 직접 활용함으로써 확산(diffusion) 모델을 이용한 고해상도(1K 초과) 영상 생성을 위한 새로운 프레임워크인 LSRNA를 제안한다. 기존의 확산 모델은 학습 해상도 이상으로 확장할 때 어려움을 겪으며, 그 결과 구조적 왜곡이나 콘텐츠 반복이 자주 발생한다. 기준(reference) 기반 방법은 저해상도 기준 이미지를 업샘플링하여 고해상도 생성을 유도함으로써 이러한 문제를 해결한다. 그러나 이 방법들은 중대한 한계를 가진다. 잠재 공간에서의 업샘플링은 종종 매니폴드(manifold) 일탈을 유발하여 출력 품질을 저하시킨다. 반면 RGB 공간에서의 업샘플링은 지나치게 매끈하게 뭉개진 결과를 생성하는 경향이 있다. 이러한 한계를 극복하기 위해 LSRNA는 매니폴드 정렬을 위한 잠재 공간 초해상도(Latent space Super-Resolution, LSR)와 고주파 디테일을 향상시키기 위한 영역 단위 노이즈 추가(Region-wise Noise Addition, RNA)를 결합한다. 광범위한 실험 결과, LSRNA를 통합한 방법은 다양한 해상도와 지표 전반에서 기존의 최신 기준 기반 방법을 성능이 우수하게 능가함을 보여주었으며, 동시에 디테일과 선명도를 보존하는 데 있어 잠재 공간 업샘플링의 핵심적 역할을 확인하였다. 코드는 https://github.com/3587jjh/LSRNA 에서 제공될 예정이다.

https://doi.org/10.1109/cvpr52734.2025.00225

Resolution (logic)

Image resolution

Space (punctuation)

Diffusion

Computer science

Image (mathematics)

Computer vision

Artificial intelligence

Physics

article

인용수 5

2024

An Improved Path-Finding Method for the Tracking of Centerlines of Tortuous Internal Carotid Arteries in MR Angiography

Seon Joo Kim, Yoon‐Chul Kim

IF 3.3 (2024)

Journal of Imaging

중심선 추적은 혈관 조도(vessel tortuosity)의 분절 분석을 혈관조영술 데이터에서 수행하는 데 유용하다. 그러나 매우 심하게 꼬인( highly tortuous) 동맥은 동맥에 대한 과도한 분할(over-segmentation)로 인해 여러 개의 중심선을 생성할 수 있으며, 이는 최단 경로(shortest path-finding) 탐색 알고리즘을 사용할 때 부정확한 경로 탐색 결과를 초래한다. 본 연구에서는 3차원(3D) 시간비행(time-of-flight) 자기공명 혈관조영술(TOF MRA) 데이터로부터 추출한 내경동맥(internal carotid arteries, ICAs)을 사용하여 새로운 경로 탐색 방법의 유효성을 입증하고자 하였다. 제안된 방법은 이웃 탐색(neighborhood searches)의 순서를 무작위로 다르게 설정한 일련의 깊이우선탐색(depth-first searches, DFS)들에 기반하며, ICAs에서 두 종점(endpoint)을 적절히 연결하는 경로를 생성한다. 이 방법은 (a) 이웃 탐색의 순차적 순서를 이용한 DFS, (b) 다익스트라(Dijkstra) 알고리즘, (c) A* 알고리즘의 세 가지 기존 방법과 비교하였다. 경로 탐색 정확도는 성공적으로 경로를 찾은 횟수를 세어 평가하였다. 그 결과 이 방법은 95.8%의 정확도를 보였으며, 세 가지 기존 방법을 능가하였다. 결론적으로, 제안된 방법은 특히 매우 조도가 심한 동맥에서 과분할로 인해 하나 이상의 중심선이 발생하는 경우에 있어서, 기존 방법들보다 경로 탐색 절차로서 더 적합한 것으로 나타났다.

https://doi.org/10.3390/jimaging10030058

Segmentation

Dijkstra's algorithm

Computer science

Path (computing)

Magnetic resonance angiography

Artificial intelligence

Computer vision

Internal carotid artery

Shortest path problem

Angiography

최신 정부 과제

과제 전체보기

2025년 2월-2028년 2월

|390,431,000원

실시간 스트리밍 비디오 처리를 위한 트랜스포머의 한계를 극복하는 새로운 비디오 상태공간모델 (Video SSM)

본 연구과제의 최종 목표는 트랜스포머를 대체할 SSM 기반의 비디오 처리 아키텍쳐 개발임. 최근 GPT4-o, Gemini와 같은 멀티모달 AI 모델들은 언어, 이미지, 오디오와 함께 비디오를 처리할 수 있는 기능을 제공하고 있음. 하지만, 일상생활에서 비디오는 길고, 특히 스트리밍 상황에서 실시간으로 처리되어야 하는데, 현재의 트랜스포머 기반 VLM의 ...

스트리밍 비디오 이해

상태공간모델

비디오 분할

트랜스포머

2022년 3월-2026년 12월

|1,797,667,000원

스스로 학습역량을 인지하고 활용하여 적정한 결과를 제공하는 인공지능 기술 개발

o (최종목표) 기계가 효율적인 학습 방법을 터득하기 위해 학습역량을 지식화 및 인지하여 활용함으로써 적정성 있는 학습이 가능한 인공지능 원천기술 개발- 1단계: 학습역량 자가 인지 개선 학습 프레임워크 개발- 2단계: 학습역량 자가 인지 개선 학습 프레임워크 실세계 검증o 개발내용- 학습역량 인지: 선행 학습과 실행에 대한 경험의 지식화 및 인지 기술 개...

역량인지학습

메타학습

불확실성추정

메타지식

강화학습

주관|

2022년 2월-2025년 2월

|185,612,000원

실시간 스트리밍 비디오 이해를 위한 온라인 시간적 행동 탐지 기술 개발

본 연구는 총 네가지의 연구 내용을 포함하고 있다. (1) End-to-End 온라인 시간적 행동 탐지 (Online Temporal Action Localization, On-TAL) 알고리즘 개발 - 본 연구팀은 세계최초로 2021 ICCV에서 OnTAL 태스크를 제안하였고, 문제를 해결하기 위해 강화학습의 일종인 모방학습 (imitation learning)을 활용함 - 본 연구에서는 학습이 불안정한 강화학습 프레임워크를 지도학습으로 전환하여 학습의 안정성을 확보하고 정확도를 개선시킬 계획임 - 강화학습 프레임워크를 추상화하여 시퀀스(sequence)로 모델링 할 수 있다면, 시퀀스 처리에 강력한 트랜스포머 구조를 적용할 수 있을 것으로 판단되며, 이러한 "decision transformer"를 기반으로 On-TAL의 학습을 안정화시키고 정확도를 높이는 연구를 추진할 계획임 (2) 비지도학습 기반 Generic Event Boundary Detection (GEBD) 알고리즘 개발 - 최근 소개된 GEBD 태스크는 비디오로부터 사람의 인지도식과 일치하는 이벤트 경계를 탐지하는 연구로서, event-centric 실시간 비디오 인식을 목적으로 하는 본 연구과제로의 확장 가능성이 높음 - GEBD와 On-TAL의 유기적 결합을 수행하는 본 연구과제는 실시간 비디오 인식이라는 연구 분과에서 새로운 패러다임을 제안 - 특히 프레임간의 유사도를 나타내는 temporal self-similarity matrix (TSM)을 활용하여 비디오에서의 이벤트 경계에서 나타나는 특유의 패턴을 찾는 방식을 비지도 학습을 통해 구현하여 GEBD 문제에 대한 해법을 찾을 계획 (3) 준지도학습 (semi-supervised learning) 및 비지도학습 기반의 On-TAL 알고리즘 개발 - 레이블 없는 일반적인 비디오에 대해 이벤트 경계를 추출하는 GEBD를 토대로, 본 연구과제의 주 task인 On-TAL의 성능을 높이고, 일반화 능력을 개선할 수 있는 새로운 훈련 알고리즘을 고안할 예정 - 특히 프레임 레벨의 [action/background]에 대한 결정들을 묶어준다는 선행 연구의 틀에서 벗어나, 이벤트 경계 중심의 (event-boundary centric) 알고리즘을 고안하여 서로 겹치는 액션 인스턴스들을 탐지할 수 있도록 하는 것에 방점을 둠 - 최종 연구단계에서는 event boundary-centric On-TAL 방법론 개발을 위해 MDP formulation을 바꾸는 등의 보다 본질적인 부분을 변경함으로서 새로운 방향의 연구를 추진할 계획임 (4) On-TAL의 평가 데이터셋 확대 및 평가기준 재정의를 통한 task의 실용성 재고 - 제안된 task의 취지와 더 잘 부합하는 새로운 데이터셋에 대한 확장 필요성이 있음. 이에 따라 본 연구에서는 On-TAL을 i) 비디오당 2시간에 이르는 축구 경기 생방송을 대상으로 하는 SoccerNetv2 데이터셋, ii) 비디오당 30분 정도 길이의 TV 시리즈와 영화 클립을 대상으로 하는 MUSES 데이터셋으로 확장하여 On-TAL의 산업상 이용가능성을 재고함 - 본 연구에서는 Hungarian Algorithm을 이용한 새 평가기준(가칭 Hungarian F1 score)을 정립하여, 비단 class-agnostic action instance detection의 성능을 정확하게 평가하는 것뿐만이 아니라, ground truth action instance들이 서로 겹치는 경우 등에 대해서도 정확하게 평가할 수 있도록 할 예정임

비디오 이해

온라인 시간적 행동 탐지

일반적 이벤트 경계 탐지

최신 특허

특허 전체보기

상태	출원연도	과제명	출원번호
공개	2023	조명 분해에 기초하여 화이트 밸런싱을 수행하는 방법 및 장치	1020230038178
등록	2022	사람 또는 동물의 얼굴을 포함한 도메인 간의 얼굴 특징점을 검출하는 특징점 검출 시스템	1020220180148
등록	2022	비디오 동작 검출 장치 및 방법	1020220142983

전체 특허

조명 분해에 기초하여 화이트 밸런싱을 수행하는 방법 및 장치

상태

공개

출원연도

2023

출원번호

1020230038178

상세 정보 바로가기

사람 또는 동물의 얼굴을 포함한 도메인 간의 얼굴 특징점을 검출하는 특징점 검출 시스템

상태

등록

출원연도

2022

출원번호

1020220180148

상세 정보 바로가기

비디오 동작 검출 장치 및 방법

상태

등록

출원연도

2022

출원번호

1020220142983

상세 정보 바로가기

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)