김진규 교수 연구실 | 고려대학교 컴퓨터학과

김진규 연구실

고려대학교 컴퓨터학과 김진규 교수

멀티모달 영상 조작

Vision-Language Model

오디오-비전 정렬

김진규 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

홈

김진규 연구실

고려대학교 컴퓨터학과 김진규 교수

김진규 연구실은 컴퓨터학과 소속 연구실로서 멀티모달 입력을 활용하는 영상 생성·조작과 자율주행을 위한 시각 지각을 중심으로 연구를 수행합니다. 오디오 및 텍스트 단서를 영상의 국소 영역에 정렬하고 암시적 신경표현 기반 조작으로 스타일 및 속성 변환을 구현하는 기술을 보유하고 있습니다. 또한 비전-언어 감독을 이용한 궤적 예측과 지도 정보를 결합한 BEV 지각, 그리고 저랭크 표현을 적용한 밀집 시각 SLAM 모델을 통해 장면 표현의 효율성과 정확도를 동시에 다룹니다.

멀티모달 영상 조작Vision-Language Model오디오-비전 정렬Trajectory PredictionDense Visual SLAM

대표 연구 분야

연구 영역 전체보기

오디오·텍스트 기반 멀티모달 영상 조작과 윤리적 생성 제어 연구

Multimodal audio/text-guided image editing and ethical generation control

연구 분야 상세보기

오디오·텍스트 기반 멀티모달 영상 조작과 윤리적 생성 제어 연구

Multimodal audio/text-guided image editing and ethical generation control

연구 분야 상세보기

비전·언어 지도 기반 다중 에이전트 궤적 예측 연구

Vision-language guided multi-agent trajectory prediction

연구 분야 상세보기

저랭크 표현 기반 밀집 시각 SLAM과 지도 인지 3D 지각 연구

Low-rank representation for dense visual SLAM and map-aware 3D perception

연구 분야 상세보기

연구 성과 추이

표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

5개년 연도별 논문 게재 수

59총합

5개년 연도별 피인용 수

696총합

주요 논문

논문 전체보기

preprint

인용수 0

2025

LRSLAM: Low-rank Representation of Signed Distance Fields in Dense Visual SLAM System

Hongbeen Park, Minjeong Park, Giljoo Nam, Jinkyu Kim

ArXiv.org

동시적 위치추정 및 지도작성(Simultaneous Localization and Mapping, SLAM)은 자율주행, 모바일 로보틱스, 혼합현실 등 다양한 분야에서 핵심적인 역할을 해왔다. RGB-D 카메라 시스템을 활용하는 밀집 시각 SLAM은 장점을 제공하지만, 대규모 장면에 대해 실시간 성능, 강건성, 확장성을 달성하는 데 어려움이 있다. 최근에는 신경 암시적 장면 표현을 사용하는 접근들이 가능성을 보이지만, 높은 계산 비용과 메모리 요구량이라는 한계를 겪는다. ESLAM은 평면 기반 텐서 분해를 도입했으나, 여전히 메모리 증가 문제로 어려움을 겪었다. 이러한 과제를 해결하기 위해, 저랭크 텐서 분해 기법을 활용하는 보다 효율적인 시각 SLAM 모델인 LRSLAM을 제안한다. 우리의 접근은 6축(Six-axis)과 CP 분해를 활용함으로써, 기존의 최신 기술 대비 더 나은 수렴 속도, 메모리 효율성, 그리고 재구성/위치추정 품질을 달성한다. 다양한 실내 RGB-D 데이터셋에 대한 평가는 LRSLAM이 매개변수 효율성, 처리 시간, 정확도 측면에서 우수한 성능을 보이며, 재구성 및 위치추정 품질을 유지함을 보여준다. 본 연구의 코드는 출판 시 공개될 예정이다.

http://arxiv.org/abs/2506.10567

Scalability

Representation (politics)

Code (set theory)

Decomposition

Convergence (economics)

Tensor (intrinsic definition)

Simultaneous localization and mapping

Tensor decomposition

book-chapter

인용수 14

2024

VisionTrap: Vision-Augmented Trajectory Prediction Guided by Textual Descriptions

Seokha Moon, Hyun Woo, Hongbeen Park, Haeji Jung, Reza Mahjourian, Hyung‐gun Chi, Hyerin Lim, Sangpil Kim, Jinkyu Kim

Lecture notes in computer science

https://doi.org/10.1007/978-3-031-72658-3_21

Computer science

Trajectory

Artificial intelligence

Computer vision

Computer graphics (images)

article

인용수 4

2024

Audio-guided implicit neural representation for local image stylization

Seung Hyun Lee, Sieun Kim, Wonmin Byeon, Gyeongrok Oh, Sumin In, Hyeongcheol Park, Sang Ho Yoon, Sunghee Hong, Jinkyu Kim, Sangpil Kim

IF 18.3 (2024)

Computational Visual Media

우리는 음성 유도를 통한 국소화 이미지 스타일화(audo-guided localized image stylization)를 위한 새로운 프레임워크를 제안한다. 소리는 장면의 특정 맥락에 관한 정보를 제공하며, 장면의 특정 부분 또는 대상과 밀접하게 연관되어 있다. 그러나 기존의 이미지 스타일화 연구들은 이미지 또는 텍스트 입력을 사용하여 전체 이미지를 스타일화하는 데에 초점을 맞춰 왔다. 음성 입력에 따라 이미지의 특정 부분을 스타일화하는 것은 자연스러우나 도전적이다. 본 연구는 사용자가 음성 입력을 제공하여 입력 이미지에서 목표를 국소화하고, 동시에 목표 대상 또는 장면을 음성에 근거해 국소적으로 스타일화하도록 하는 프레임워크를 제안한다. 먼저 CLIP 임베딩 공간을 활용하는 오디오-비주얼 국소화 네트워크를 통해 정밀한 국소화 맵(fine localization map)을 생성한다. 이후 예측된 국소화 맵과 함께 암시적 신경 표현(implicit neural representation, INR)을 이용하여 음성 정보에 기반해 목표를 스타일화한다. INR은 제공된 음성 입력과 의미적으로 일관되도록 국소 픽셀 값을 조작한다. 실험 결과, 제안한 프레임워크는 다른 음성 유도 스타일화 방법들보다 우수한 성능을 보였다. 또한, 본 방법은 간결한 국소화 맵을 구성하고 주어진 음성 입력에 따라 목표 대상 또는 장면을 자연스럽게 조작함을 관찰하였다.

https://doi.org/10.1007/s41095-024-0413-5

Representation (politics)

Computer science

Computer graphics

Image (mathematics)

Computer graphics (images)

Graphics

Artificial intelligence

Computer vision

Artificial neural network

최신 정부 과제

과제 전체보기

2024년 3월-2027년 12월

|1,990,000,000원

LLM 기반 응용서비스 기술 개발을 통한 생성 AI 인재양성

자체 개발한 생성 AI 파운데이션 모델을 활용하여 기업과 대학 이 함께 실수요에 기반한 4가지 생성 AI 기술을 연구개발하는 프로젝트를 진행하며 실무형 고급인재를 육성하는 것을 목표

생성형 인공지능

인재 양성

파운데이션 모델

거대언어모델

멀티모달 언어모델

2022년 3월-2026년 12월

|1,742,100,000원

개성 형성이 가능한 에이전트 플랫폼 기술 개발

모사 대상과 인지적 상호 작용을 통하여 자신의 페르소나를 형성해 가는 인공지능 에이전트 기술 개발ㅇ 모사 대상에 대한 멀티 모달 정보로 개성을 형성하고 상대에 맞게 학습하며 사회성을 가지는 인공지능 에이전트 기술 개발ㅇ 형성된 개성을 기반으로 상호 작용에 따라 새로운 개성을 생성하기 위해 모방, 변형, 조합, 예측 등을 수행하며 진화하는 개성 형성 기술 개...

개성

휴먼 컴퓨터 인터랙션

다중 양상

사회성

지능형 에이전트

주관|

2022년 3월-2026년 12월

|2,000,000,000원

개성 형성이 가능한 에이전트 플랫폼 기술 개발

□ 주관연구개발기관 (한국전자기술연구원) ㅇ 멀티모달 정보를 이용하여 모사 대상과 에이전트가 상호 작용 하는 기술 ㅇ 모사 대상의 감정/의도를 인식하고 에이전트에 반영하여 사회성을 형성하는 기술 ㅇ 개성에 대한 다양한 평가를 위한 방법 연구 ㅇ 모사 대상에 따라 개성 학습에 적합한 잠재 변수를 도출하는 기술 □ 공동연구개발기관 1 (고려대학교) ㅇ 멀티모달 정보를 이용하여 모사 대상과 에이전트가 상호 작용 하는 기술 ㅇ 모사 대상의 감정/의도를 인식하고 에이전트에 반영하여 사회성을 형성하는 기술 ㅇ 개성 범주 별 인공지능 모델 구축 및 선택을 통한 개성 특화형 에이전트 학습 기술 연구 □ 공동연구개발기관 2 (서울과학기술대학교) ㅇ 모사 대상에 따라 개성 학습에 적합한 잠재 변수를 도출하는 기술 ㅇ 개성 학습에 대한 인공지능 모델 내 잠재 변수의 영향을 평가하는 기술 ㅇ 모사 대상의 개성 정보를 정형화(임베딩) 하는 기술 □ 공동연구개발기관 3 (성균관대학교) ㅇ 모사 대상 데이터에 따라 개성 학습에 적합한 잠재 변수를 도출하는 기술 ㅇ 모사 대상의 추가적인 멀티모달 정보로부터 진화된 개성을 학습하는 기술 ㅇ 모사 대상의 점진적 개성 변이에 능동적으로 대응하며 학습하는 기술 □ 공동연구개발기관 4 ((주)아크릴) ㅇ 개별 개성 모델을 체계적으로 데이터베이스화 하는 시스템 기술 개발 ㅇ 사용자의 요구에 따라 기본 개성 모델을 조합하여 제공하는 플랫폼 기술 ㅇ 에이전트 기본 개성 범주 정의 및 범주별 학습 및 평가 데이터 구축 ㅇ 인공지능 에이전트 개성 학습 플랫폼 기반 에이전트 서비스

개성

다중 양상

사회성

지능형 에이전트

휴먼 컴퓨터 인터랙션

최신 특허

특허 전체보기

상태	출원연도	과제명	출원번호
공개	2024	3차원 객체 탐지 방법 및 그 장치	1020240099581
공개	2024	인공지능을 이용한 객체 간 상호작용 분석을 통한 경로 예측 방법 및 이를 이용하는 모빌리티 장치	1020240038555
공개	2024	자율 주행을 위한 에이전트의 거동 예측 방법 및 모빌리티 장치	1020240034457

전체 특허

3차원 객체 탐지 방법 및 그 장치

상태

공개

출원연도

2024

출원번호

1020240099581

상세 정보 바로가기

인공지능을 이용한 객체 간 상호작용 분석을 통한 경로 예측 방법 및 이를 이용하는 모빌리티 장치

상태

공개

출원연도

2024

출원번호

1020240038555

상세 정보 바로가기

자율 주행을 위한 에이전트의 거동 예측 방법 및 모빌리티 장치

상태

공개

출원연도

2024

출원번호

1020240034457

상세 정보 바로가기

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)