임성훈 교수 연구실 | 대구경북과학기술원 전기전자컴퓨터공학과

임성훈 연구실

대구경북과학기술원 전기전자컴퓨터공학과 임성훈 교수

LiDAR 포인트클라우드

4D 복셀 네트워크

장면 흐름 추정

임성훈 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

홈

임성훈 연구실

대구경북과학기술원 전기전자컴퓨터공학과 임성훈 교수

임성훈 연구실은 전기전자컴퓨터공학과 기반의 컴퓨터비전 및 컴퓨터/인공지능 연구를 수행합니다. LiDAR 포인트클라우드를 레인지 뷰로 구성하여 의미·운동 특징을 융합한 이동 객체 분할과 다중 프레임 4D 복셀 기반 장면 흐름 추정을 연구합니다. 또한 단안 깊이 추정의 일반화 특성을 백본별 표현 관점에서 분석하고, 반사 표면에서 광도 일관성 오류를 줄이기 위해 intrinsic image decomposition과 자기지도 학습을 결합합니다. 비전-언어 정렬과 텍스트-이미지 일관성 생성, 시각언어모델 기반 로봇 내비게이션 과제를 함께 진행합니다.

LiDAR 포인트클라우드4D 복셀 네트워크장면 흐름 추정이동 객체 분할단안 깊이 추정

대표 연구 분야

연구 영역 전체보기

LiDAR 레인지 뷰 기반 동적 객체 인식 및 장면 흐름 추정 연구

Dynamic object perception and scene flow estimation using LiDAR range-view

연구 분야 상세보기

LiDAR 레인지 뷰 기반 동적 객체 인식 및 장면 흐름 추정 연구

Dynamic object perception and scene flow estimation using LiDAR range-view

연구 분야 상세보기

단안 및 스테레오 기반 깊이 추정의 강인화와 일반성 분석 연구

Robustness and generality analysis for monocular and stereo depth estimation

연구 분야 상세보기

비전-언어 정렬과 일관성 생성 모델을 위한 멀티모달 학습 연구

Multimodal learning for video-text alignment and consistent generation

연구 분야 상세보기

연구 성과 추이

표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

5개년 연도별 논문 게재 수

53총합

5개년 연도별 피인용 수

390총합

주요 논문

논문 전체보기

article

인용수 0

2026

CascadeOcc: Rethinking 3D Occupancy World Models With Cascaded VQ Representations

Kyumin Hwang, Wonhyeok Choi, Jae-Yeul Kim, Ji‐Hun Park, Dae-Hee Park, Sunghoon Im

IF 3.9 (2026)

IEEE Signal Processing Letters

이 편지는 자율주행을 위해 외재적 보조 양식보다 본질적인 구조적 계층성을 우선하는 새로운 점유(occupancy) 월드 모델인 CascadeOcc를 제안한다. 점유 월드 모델—미래의 주행 환경을 예측하고 주행 궤적을 계획하는—은 지각과 계획을 효과적으로 연결하지만, 현재의 접근들은 종종 외부 양식이나 대규모 언어 모델에 크게 의존하여 점유 표현 그 자체가 지니는 내재적 구조적 잠재력을 충분히 활용하지 못하는 경우가 많다. 복잡한 3D 장면에 대한 표현 능력을 향상시키기 위해, 우리는 자기회귀 프레임워크에 계단식 Vector Quantized (VQ) 메커니즘을 통합한다. 거친 것에서 정교한 것으로(coarse-to-fine)이라는 원리에 따라, CascadeOcc는 다중 스케일 아키텍처를 통해 전역 구조로부터 미세한 디테일을 점진적으로 정교화한다. 또한, 다중 스케일 시간적 의존성을 포착하기 위해 TimeMixer를 도입하여 공간과 시간 모두에서 이중 계층(dual-hierarchy) 메커니즘을 구축한다. 4D 점유 예측 및 모션 계획 벤치마크에 대한 실험 결과는 CascadeOcc가 비전 중심 접근들 가운데서도 우수한 성능을 달성함을 보여주며, 내재적 표현을 최적화하는 것이 외부 파운데이션 모델에 의존하는 것에 대한 강력한 대안임을 검증한다.

https://doi.org/10.1109/lsp.2026.3680426

Pattern recognition (psychology)

Representation (politics)

Probabilistic logic

Occupancy

Signal processing

Object (grammar)

article

인용수 3

2025

Flow4D: Leveraging 4D Voxel Network for LiDAR Scene Flow Estimation

Jae-Yeul Kim, Jungwan Woo, Ukcheol Shin, Jean Oh, Sunghoon Im

IF 5.3 (2025)

IEEE Robotics and Automation Letters

주변 환경의 운동 상태를 이해하는 것은 안전한 자율주행에 있어 핵심적이다. 이러한 운동 상태는 점들의 3차원 운동장을 포착하는 scene flow로부터 정확하게 도출될 수 있다. 기존의 LiDAR scene flow 방법들은 각 포인트 클라우드로부터 공간 특징을 추출한 다음 이를 채널별로 융합하여, 시공간 특징을 암묵적으로 추출하는 결과를 초래한다. 또한 2D Bird's Eye View를 활용하고 단지 두 프레임만 처리하여, Z축 방향의 중요한 공간 정보를 놓치고 더 넓은 시간적 맥락도 반영하지 못함으로써 성능이 최적이 아니다. 이러한 한계를 해결하기 위해 본 연구에서는 Flow4D를 제안한다. Flow4D는 3D intra-voxel feature encoder 이후 다수의 포인트 클라우드를 시간적으로 융합함으로써, 4D voxel 네트워크를 통해 시공간 특징을 보다 명시적으로 추출할 수 있게 한다. 그러나 4D 컨볼루션을 사용하면 성능이 향상되는 동시에 계산량이 크게 증가한다. 추가적인 효율을 위해, 우리는 무거운 4D 컨볼루션 대신 3D 및 1D 컨볼루션을 결합하는 Spatio-Temporal Decomposition Block (STDB)를 도입한다. 또한 Flow4D는 더 풍부한 시간 정보를 활용하기 위해 5개 프레임을 사용함으로써 성능을 한층 더 향상시킨다. 그 결과, 제안된 방법은 실시간으로 동작하면서 기존의 최신 기술 대비 45.9% 더 높은 성능을 달성하였고, 2024 Argoverse 2 Scene Flow Challenge에서 1^st 자리를 수상하였다.

https://doi.org/10.1109/lra.2025.3542327

Lidar

Computer science

Voxel

Estimation

Flow (mathematics)

Artificial intelligence

Computer vision

Remote sensing

Geography

Engineering

article

인용수 21

2023

A Study on the Generality of Neural Network Structures for Monocular Depth Estimation

Jinwoo Bae, Kyumin Hwang, Sunghoon Im

IF 20.8 (2023)

IEEE Transactions on Pattern Analysis and Machine Intelligence

단안 깊이 추정은 널리 연구되어 왔으며, 최근 성능에 대한 상당한 개선 결과가 보고되었다. 그러나 대부분의 선행 연구는 KITTI 데이터셋과 같은 소수의 벤치마크 데이터셋에서만 평가되었고, 단안 깊이 추정의 일반화 성능에 대한 심층 분석을 제공한 연구는 없다. 본 논문에서는 단안 깊이 추정의 일반화를 위해 다양한 백본 네트워크(예: CNN 및 Transformer 모델)를 면밀히 조사한다. 먼저, 네트워크 학습 중에는 한 번도 접해보지 않은 데이터인 in-distribution 및 out-of-distribution 데이터셋 모두에서 최신 기법 모델들을 평가한다. 다음으로, 합성 텍스처-시프트(texture-shifted) 데이터셋을 사용하여 CNN-/Transformer 기반 모델의 중간 층에서 얻은 표현(representations)의 내부 특성을 분석한다. 광범위한 실험을 통해, Transformer는 강한 형태 편향(shape-bias)을 보이는 반면 CNN은 강한 질감 편향(texture-bias)을 보인다는 점을 관찰한다. 또한 질감 편향 모델은 단안 깊이 추정에서 형태 편향 모델보다 더 나쁜 일반화 성능을 보임을 발견한다. 다양한 환경에서 촬영된 실제 주행 데이터셋에서도 유사한 양상이 나타남을 시연한다. 마지막으로, 현대의 전략들에서 활용되는 다양한 백본 네트워크를 대상으로 밀집(dense) 애블레이션 연구를 수행한다. 실험 결과는 CNN의 고유한 국소성(intrinsic locality)과 Transformer의 자기-어텐션(self-attention)이 각각 질감 편향 및 형태 편향을 유발한다는 것을 보여준다.

https://doi.org/10.1109/tpami.2023.3332407

Monocular

Artificial intelligence

Computer science

Generality

Transformer

Generalization

Pattern recognition (psychology)

Artificial neural network

Locality

Computer vision

최신 정부 과제

과제 전체보기

2025년 8월-2034년 8월

|1,500,000,000원

로봇및기계전자공학연구소

본 연구소에서 제안하는 '인류확장로보틱스연구'는 로봇공학, 인공지능(AI), 그리고 의공학 분야의 최첨단 기술을 통합하여 인간의 운동, 감각, 인지 기능을 혁신적으로 확장하는 글로벌 융복합 연구임. 이를 통해 현재 로봇공학의 기존 패러다임을 넘어, 인간 능력의 근본적인 향상과 인간-로봇의 심층적 통합을 목표로 하는 새로운 기술 패러다임을 제시하고자 함

인류확장

운동기능확장

감각기능확장

인지기능확장

2025년 6월-2029년 12월

|1,800,000,000원

(InnoCORE) 바이오 체화형 피지컬 AI 연구단(DGIST)

○ AI+S&T 분야의 국내외 최우수 포닥을 집중 유치·양성하여, 신뢰성 강화 바이오 체화형 인공지능이라는 신규 융합 분야에 특화된 차세대 연구인력 기반을 구축.○ DGIST-KAIST-GIST-UNIST-서울대 등 다(多)과기원 협력체계와 지역 전략거점(대구 수성 알파시티 등)을 연계하여, 바이오-로봇-AI-NPU를 아우르는 실질적 융합연구 생태계를 조성...

최고급 포닥

신뢰성 강화

상리공생

바이오 임바디드

인공지능

2025년 6월-2025년 12월

|25,000,000원

(N-HRHR)사고의 연쇄를 활용한 물리 법칙 준수 비디오 생성 모델 연구

본 연구의 목표는 사고의 연쇄 기법(Chain-of-Thought)를 활용하여 대형 언어 모델(LLM)과 비디오 생성 모델을 유기적으로 통합한 텍스트 기반 물리 법칙 준수 비디오 생성 모델을 개발하는 것이다. 이를 통해 AI 기반 시뮬레이션 및 콘텐츠 생성을 극대화하고, 다양한 산업 및 연구분야에서 발생하는 데이터 구축 및 시뮬레이션 문제를 해결하고, 추후...

생성형 인공지능

비디오 생성

월드파운데이션 모델

물리법칙

사고의 연쇄

최신 특허

특허 전체보기

상태	출원연도	과제명	출원번호
공개	2024	문맥 인지 비디오 인스턴스 세그먼테이션 방법	1020240109424
공개	2024	반사 표면의 깊이 추정을 위한 단안 카메라 깊이 추정 방법	1020240098600
공개	2024	인공지능에 기반한 다중 태스크 처리 방법 및 이를 이용하는 모빌리티 장치	1020240040179

전체 특허

문맥 인지 비디오 인스턴스 세그먼테이션 방법

상태

공개

출원연도

2024

출원번호

1020240109424

상세 정보 바로가기

반사 표면의 깊이 추정을 위한 단안 카메라 깊이 추정 방법

상태

공개

출원연도

2024

출원번호

1020240098600

상세 정보 바로가기

인공지능에 기반한 다중 태스크 처리 방법 및 이를 이용하는 모빌리티 장치

상태

공개

출원연도

2024

출원번호

1020240040179

상세 정보 바로가기

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)