프로젝트 | 김선주 교수 연구실 | 연세대학교 컴퓨터과학과

김선주 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

프로젝트

정부 과제

2025년 2월-2028년 2월

|390,431,000원

실시간 스트리밍 비디오 처리를 위한 트랜스포머의 한계를 극복하는 새로운 비디오 상태공간모델 (Video SSM)

본 연구과제의 최종 목표는 트랜스포머를 대체할 SSM 기반의 비디오 처리 아키텍쳐 개발임. 최근 GPT4-o, Gemini와 같은 멀티모달 AI 모델들은 언어, 이미지, 오디오와 함께 비디오를 처리할 수 있는 기능을 제공하고 있음. 하지만, 일상생활에서 비디오는 길고, 특히 스트리밍 상황에서 실시간으로 처리되어야 하는데, 현재의 트랜스포머 기반 VLM의 ...

스트리밍 비디오 이해

상태공간모델

비디오 분할

트랜스포머

2022년 3월-2026년 12월

|1,797,667,000원

스스로 학습역량을 인지하고 활용하여 적정한 결과를 제공하는 인공지능 기술 개발

o (최종목표) 기계가 효율적인 학습 방법을 터득하기 위해 학습역량을 지식화 및 인지하여 활용함으로써 적정성 있는 학습이 가능한 인공지능 원천기술 개발- 1단계: 학습역량 자가 인지 개선 학습 프레임워크 개발- 2단계: 학습역량 자가 인지 개선 학습 프레임워크 실세계 검증o 개발내용- 학습역량 인지: 선행 학습과 실행에 대한 경험의 지식화 및 인지 기술 개...

역량인지학습

메타학습

불확실성추정

메타지식

강화학습

주관|

2022년 2월-2025년 2월

|185,612,000원

실시간 스트리밍 비디오 이해를 위한 온라인 시간적 행동 탐지 기술 개발

본 연구는 총 네가지의 연구 내용을 포함하고 있다. (1) End-to-End 온라인 시간적 행동 탐지 (Online Temporal Action Localization, On-TAL) 알고리즘 개발 - 본 연구팀은 세계최초로 2021 ICCV에서 OnTAL 태스크를 제안하였고, 문제를 해결하기 위해 강화학습의 일종인 모방학습 (imitation learning)을 활용함 - 본 연구에서는 학습이 불안정한 강화학습 프레임워크를 지도학습으로 전환하여 학습의 안정성을 확보하고 정확도를 개선시킬 계획임 - 강화학습 프레임워크를 추상화하여 시퀀스(sequence)로 모델링 할 수 있다면, 시퀀스 처리에 강력한 트랜스포머 구조를 적용할 수 있을 것으로 판단되며, 이러한 "decision transformer"를 기반으로 On-TAL의 학습을 안정화시키고 정확도를 높이는 연구를 추진할 계획임 (2) 비지도학습 기반 Generic Event Boundary Detection (GEBD) 알고리즘 개발 - 최근 소개된 GEBD 태스크는 비디오로부터 사람의 인지도식과 일치하는 이벤트 경계를 탐지하는 연구로서, event-centric 실시간 비디오 인식을 목적으로 하는 본 연구과제로의 확장 가능성이 높음 - GEBD와 On-TAL의 유기적 결합을 수행하는 본 연구과제는 실시간 비디오 인식이라는 연구 분과에서 새로운 패러다임을 제안 - 특히 프레임간의 유사도를 나타내는 temporal self-similarity matrix (TSM)을 활용하여 비디오에서의 이벤트 경계에서 나타나는 특유의 패턴을 찾는 방식을 비지도 학습을 통해 구현하여 GEBD 문제에 대한 해법을 찾을 계획 (3) 준지도학습 (semi-supervised learning) 및 비지도학습 기반의 On-TAL 알고리즘 개발 - 레이블 없는 일반적인 비디오에 대해 이벤트 경계를 추출하는 GEBD를 토대로, 본 연구과제의 주 task인 On-TAL의 성능을 높이고, 일반화 능력을 개선할 수 있는 새로운 훈련 알고리즘을 고안할 예정 - 특히 프레임 레벨의 [action/background]에 대한 결정들을 묶어준다는 선행 연구의 틀에서 벗어나, 이벤트 경계 중심의 (event-boundary centric) 알고리즘을 고안하여 서로 겹치는 액션 인스턴스들을 탐지할 수 있도록 하는 것에 방점을 둠 - 최종 연구단계에서는 event boundary-centric On-TAL 방법론 개발을 위해 MDP formulation을 바꾸는 등의 보다 본질적인 부분을 변경함으로서 새로운 방향의 연구를 추진할 계획임 (4) On-TAL의 평가 데이터셋 확대 및 평가기준 재정의를 통한 task의 실용성 재고 - 제안된 task의 취지와 더 잘 부합하는 새로운 데이터셋에 대한 확장 필요성이 있음. 이에 따라 본 연구에서는 On-TAL을 i) 비디오당 2시간에 이르는 축구 경기 생방송을 대상으로 하는 SoccerNetv2 데이터셋, ii) 비디오당 30분 정도 길이의 TV 시리즈와 영화 클립을 대상으로 하는 MUSES 데이터셋으로 확장하여 On-TAL의 산업상 이용가능성을 재고함 - 본 연구에서는 Hungarian Algorithm을 이용한 새 평가기준(가칭 Hungarian F1 score)을 정립하여, 비단 class-agnostic action instance detection의 성능을 정확하게 평가하는 것뿐만이 아니라, ground truth action instance들이 서로 겹치는 경우 등에 대해서도 정확하게 평가할 수 있도록 할 예정임

비디오 이해

온라인 시간적 행동 탐지

일반적 이벤트 경계 탐지

2022년 2월-2025년 2월

|167,051,000원

실시간 스트리밍 비디오 이해를 위한 온라인 시간적 행동 탐지 기술 개발

실시간 비디오 스트리밍 서비스가 빠른 속도로 대중화되고 있는 현 시점에서, 실시간으로 비디오를 이해할 수 있는 AI 시스템은 파급력 있는 실용성을 갖는다. 하지만 현재까지의 비디오 이해 기술은 대부분 오프라인 방식으로 설계되어 실시간 비디오 이해에는 적용될 수 없다는 한계점을 갖추고 있다. 여기서 오프라인 방식이란 시작과 끝이 모두 포함된 비디오를 입력으로...

비디오 이해

온라인 시간적 행동 탐지

일반적 이벤트 경계 탐지

주관|

2018년 7월-2019년 12월

|649,880,000원

가짜영상 판별성능 향상을 위한 동영상 조작 및 문장 기반 이미지 편집 알고리즘 개발

○ GAN기반 도메인 변환 동영상 생성 기술 개발 도메인 변환 동영상 생성 기술 개발이란, 참고 영상을 바탕으로 입력 영상의 도메인을 변환시키는 기술을 지칭한다. 입력 영상에서 목표 객체의 표현 정보를 추출하고, 참고 동영상에서 얻은 모션 정보와 결합하여 다중 도메인 변환이 가능한 비지도학습 기반의 딥러닝 모델을 개발할 계획이다. ○ 사실적인 얼굴 에이징(aging) 이미지 생성 기술 개발 얼굴 나이 변환 기술은 어릴 때의 사진을 입력으로 하여, 나이가 들었을 때의 모습을 추정한 이미지를 생성하는 과정을 지칭한다 (반대의 경우도 해당). 환경적인 특성을 고려하여, 입력 영상에 대해 육안으로 얼굴 에이징 식별이 가능한 고해상도 에이징 영상을 추출하는 딥러닝 모델 개발을 목표로 한다. ○ 딥 러닝 기반 동영상 인페인팅(inpainting) 기술 개발 동영상 인페인팅이란, 손상된 부분이나 제거할 대상이 레이블링 되어있는 동영상을 입력으로 받아 해당 부분을 채워줄 수 있는 과정을 지칭한다. 딥러닝이 아닌, 고전적인 최적화 기반의 State-of-the-art 방식의 성능을 유지하면서, 실행 속도를 개선한 딥러닝 기반의 알고리즘 개발을 목표로 한다. ○ 가짜 동영상 판별 기술 개발 가짜 동영상 판별기술이란, 실제 동영상과 딥 러닝에 의해 생성된 동영상을 판별하는 기술을 지칭한다. 위의 연구에서 얻어진 딥 러닝에 의해 생성된 동영상을 이용하여 실제 동영상과 해당 동영상을 구분하는 알고리즘 개발을 목표로 한다.

딥러닝

이미지 편집

인공지능

합성 동영상

합성 사진

프로젝트

2026년도 4월 기준으로 최신 업데이트된 정보입니다.
출처: NTIS를 기반으로 제공되었습니다.

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)