논문 | 임성훈 교수 연구실 | 대구경북과학기술원 전기전자컴퓨터공학과

임성훈 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

논문

연구 성과 추이

표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

5개년 연도별 논문 게재 수

53총합

5개년 연도별 피인용 수

390총합

주요 논문

*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.

article

인용수 0

2026

CascadeOcc: Rethinking 3D Occupancy World Models With Cascaded VQ Representations

Kyumin Hwang, Wonhyeok Choi, Jae-Yeul Kim, Ji‐Hun Park, Dae-Hee Park, Sunghoon Im

IF 3.9 (2026)

IEEE Signal Processing Letters

이 편지는 자율주행을 위해 외재적 보조 양식보다 본질적인 구조적 계층성을 우선하는 새로운 점유(occupancy) 월드 모델인 CascadeOcc를 제안한다. 점유 월드 모델—미래의 주행 환경을 예측하고 주행 궤적을 계획하는—은 지각과 계획을 효과적으로 연결하지만, 현재의 접근들은 종종 외부 양식이나 대규모 언어 모델에 크게 의존하여 점유 표현 그 자체가 지니는 내재적 구조적 잠재력을 충분히 활용하지 못하는 경우가 많다. 복잡한 3D 장면에 대한 표현 능력을 향상시키기 위해, 우리는 자기회귀 프레임워크에 계단식 Vector Quantized (VQ) 메커니즘을 통합한다. 거친 것에서 정교한 것으로(coarse-to-fine)이라는 원리에 따라, CascadeOcc는 다중 스케일 아키텍처를 통해 전역 구조로부터 미세한 디테일을 점진적으로 정교화한다. 또한, 다중 스케일 시간적 의존성을 포착하기 위해 TimeMixer를 도입하여 공간과 시간 모두에서 이중 계층(dual-hierarchy) 메커니즘을 구축한다. 4D 점유 예측 및 모션 계획 벤치마크에 대한 실험 결과는 CascadeOcc가 비전 중심 접근들 가운데서도 우수한 성능을 달성함을 보여주며, 내재적 표현을 최적화하는 것이 외부 파운데이션 모델에 의존하는 것에 대한 강력한 대안임을 검증한다.

https://doi.org/10.1109/lsp.2026.3680426

Pattern recognition (psychology)

Representation (politics)

Probabilistic logic

Occupancy

Signal processing

Object (grammar)

article

인용수 3

2025

Flow4D: Leveraging 4D Voxel Network for LiDAR Scene Flow Estimation

Jae-Yeul Kim, Jungwan Woo, Ukcheol Shin, Jean Oh, Sunghoon Im

IF 5.3 (2025)

IEEE Robotics and Automation Letters

주변 환경의 운동 상태를 이해하는 것은 안전한 자율주행에 있어 핵심적이다. 이러한 운동 상태는 점들의 3차원 운동장을 포착하는 scene flow로부터 정확하게 도출될 수 있다. 기존의 LiDAR scene flow 방법들은 각 포인트 클라우드로부터 공간 특징을 추출한 다음 이를 채널별로 융합하여, 시공간 특징을 암묵적으로 추출하는 결과를 초래한다. 또한 2D Bird's Eye View를 활용하고 단지 두 프레임만 처리하여, Z축 방향의 중요한 공간 정보를 놓치고 더 넓은 시간적 맥락도 반영하지 못함으로써 성능이 최적이 아니다. 이러한 한계를 해결하기 위해 본 연구에서는 Flow4D를 제안한다. Flow4D는 3D intra-voxel feature encoder 이후 다수의 포인트 클라우드를 시간적으로 융합함으로써, 4D voxel 네트워크를 통해 시공간 특징을 보다 명시적으로 추출할 수 있게 한다. 그러나 4D 컨볼루션을 사용하면 성능이 향상되는 동시에 계산량이 크게 증가한다. 추가적인 효율을 위해, 우리는 무거운 4D 컨볼루션 대신 3D 및 1D 컨볼루션을 결합하는 Spatio-Temporal Decomposition Block (STDB)를 도입한다. 또한 Flow4D는 더 풍부한 시간 정보를 활용하기 위해 5개 프레임을 사용함으로써 성능을 한층 더 향상시킨다. 그 결과, 제안된 방법은 실시간으로 동작하면서 기존의 최신 기술 대비 45.9% 더 높은 성능을 달성하였고, 2024 Argoverse 2 Scene Flow Challenge에서 1^st 자리를 수상하였다.

https://doi.org/10.1109/lra.2025.3542327

Lidar

Computer science

Voxel

Estimation

Flow (mathematics)

Artificial intelligence

Computer vision

Remote sensing

Geography

Engineering

article

인용수 21

2023

A Study on the Generality of Neural Network Structures for Monocular Depth Estimation

Jinwoo Bae, Kyumin Hwang, Sunghoon Im

IF 20.8 (2023)

IEEE Transactions on Pattern Analysis and Machine Intelligence

단안 깊이 추정은 널리 연구되어 왔으며, 최근 성능에 대한 상당한 개선 결과가 보고되었다. 그러나 대부분의 선행 연구는 KITTI 데이터셋과 같은 소수의 벤치마크 데이터셋에서만 평가되었고, 단안 깊이 추정의 일반화 성능에 대한 심층 분석을 제공한 연구는 없다. 본 논문에서는 단안 깊이 추정의 일반화를 위해 다양한 백본 네트워크(예: CNN 및 Transformer 모델)를 면밀히 조사한다. 먼저, 네트워크 학습 중에는 한 번도 접해보지 않은 데이터인 in-distribution 및 out-of-distribution 데이터셋 모두에서 최신 기법 모델들을 평가한다. 다음으로, 합성 텍스처-시프트(texture-shifted) 데이터셋을 사용하여 CNN-/Transformer 기반 모델의 중간 층에서 얻은 표현(representations)의 내부 특성을 분석한다. 광범위한 실험을 통해, Transformer는 강한 형태 편향(shape-bias)을 보이는 반면 CNN은 강한 질감 편향(texture-bias)을 보인다는 점을 관찰한다. 또한 질감 편향 모델은 단안 깊이 추정에서 형태 편향 모델보다 더 나쁜 일반화 성능을 보임을 발견한다. 다양한 환경에서 촬영된 실제 주행 데이터셋에서도 유사한 양상이 나타남을 시연한다. 마지막으로, 현대의 전략들에서 활용되는 다양한 백본 네트워크를 대상으로 밀집(dense) 애블레이션 연구를 수행한다. 실험 결과는 CNN의 고유한 국소성(intrinsic locality)과 Transformer의 자기-어텐션(self-attention)이 각각 질감 편향 및 형태 편향을 유발한다는 것을 보여준다.

https://doi.org/10.1109/tpami.2023.3332407

Monocular

Artificial intelligence

Computer science

Generality

Transformer

Generalization

Pattern recognition (psychology)

Artificial neural network

Locality

Computer vision

article

인용수 60

2022

RVMOS: Range-View Moving Object Segmentation Leveraged by Semantic and Motion Features

Jae-Yeul Kim, Jungwan Woo, Sunghoon Im

IF 5.2 (2022)

IEEE Robotics and Automation Letters

자율주행에서 교통 참여자를 탐지하는 일은 필수적이며 오래된 과제이다. 최근에는 안전 주행을 위해 움직이는 물체의 인식이 이 분야의 주요 쟁점으로 부상하고 있다. 본 논문에서는 연속된 range-view 영상으로부터 움직이는 물체를 분할하는 LiDAR range-view 기반 Moving Object Segmentation 프레임워크인 RVMOS를 제안한다. 기존 방법과 달리, 우리의 네트워크는 각기 물체의 운동을 인코딩하는 ‘모션’ 특징과 물체를 둘러싼 상황을 인코딩하는 ‘시맨틱’ 특징을 모두 포함한다. 또한 range-view 영상에 적합하도록 설계된 새로운 특징 추출 모듈을 고안하였다. 마지막으로 단순하지만 효과적인 데이터 증강 기법으로서 시간 간격 조절(time interval modulation)과 영(0) 잔차 영상 합성(zero residual image synthesis)을 도입한다. 이러한 기여를 통해 SemanticKitti 벤치마크에서 최신 기술 대비 10% 더 빠른 연산 시간( RTX 3090에서 34 FPS )으로 mIoU 기준 19% 향상된 성능을 달성하였다. 광범위한 실험을 통해 본 네트워크 설계와 데이터 증강 방식의 효과가 입증되었다.

https://doi.org/10.1109/lra.2022.3186080

Segmentation

Computer science

Artificial intelligence

Computer vision

Benchmark (surveying)

Feature (linguistics)

Object detection

Range (aeronautics)

Object (grammar)

Feature extraction

article

인용수 2

2022

CMSNet: Deep Color and Monochrome Stereo

Hae‐Gon Jeon, Sunghoon Im, Jaesung Choe, Minjun Kang, Joon‐Young Lee, Martial Hebert

IF 19.5 (2022)

International Journal of Computer Vision

https://doi.org/10.1007/s11263-021-01565-6

Monochrome

Artificial intelligence

Computer vision

Computer science

Chrominance

Noise (video)

Computer stereo vision

Convolutional neural network

Luminance

Color image

전체 논문

article

인용수 0

2026

CascadeOcc: Rethinking 3D Occupancy World Models With Cascaded VQ Representations

Kyumin Hwang, Wonhyeok Choi, Jae-Yeul Kim, Ji‐Hun Park, Dae-Hee Park, Sunghoon Im

IF 3.9 (2026)

IEEE Signal Processing Letters

https://doi.org/10.1109/lsp.2026.3680426

Pattern recognition (psychology)

Representation (politics)

Probabilistic logic

Occupancy

Signal processing

Object (grammar)

article

인용수 3

2025

Flow4D: Leveraging 4D Voxel Network for LiDAR Scene Flow Estimation

Jae-Yeul Kim, Jungwan Woo, Ukcheol Shin, Jean Oh, Sunghoon Im

IF 5.3 (2025)

IEEE Robotics and Automation Letters

https://doi.org/10.1109/lra.2025.3542327

Lidar

Computer science

Voxel

Estimation

Flow (mathematics)

Artificial intelligence

Computer vision

Remote sensing

Geography

Engineering

article

인용수 21

2023

A Study on the Generality of Neural Network Structures for Monocular Depth Estimation

Jinwoo Bae, Kyumin Hwang, Sunghoon Im

IF 20.8 (2023)

IEEE Transactions on Pattern Analysis and Machine Intelligence

https://doi.org/10.1109/tpami.2023.3332407

Monocular

Artificial intelligence

Computer science

Generality

Transformer

Generalization

Pattern recognition (psychology)

Artificial neural network

Locality

Computer vision

article

인용수 60

2022

RVMOS: Range-View Moving Object Segmentation Leveraged by Semantic and Motion Features

Jae-Yeul Kim, Jungwan Woo, Sunghoon Im

IF 5.2 (2022)

IEEE Robotics and Automation Letters

https://doi.org/10.1109/lra.2022.3186080

Segmentation

Computer science

Artificial intelligence

Computer vision

Benchmark (surveying)

Feature (linguistics)

Object detection

Range (aeronautics)

Object (grammar)

Feature extraction

article

인용수 2

2022

CMSNet: Deep Color and Monochrome Stereo

Hae‐Gon Jeon, Sunghoon Im, Jaesung Choe, Minjun Kang, Joon‐Young Lee, Martial Hebert

IF 19.5 (2022)

International Journal of Computer Vision

https://doi.org/10.1007/s11263-021-01565-6

Monochrome

Artificial intelligence

Computer vision

Computer science

Chrominance

Noise (video)

Computer stereo vision

Convolutional neural network

Luminance

Color image

article

인용수 0

2026

Infinite-Story: A Training-Free Consistent Text-to-Image Generation

Jihun Park, Kyoungmin Lee, Jongmin Gim, Hyeonseo Jo, Minseok Oh, Wonhyeok Choi, Kyumin Hwang, Jaeyeul Kim, Minwoo Choi, Sunghoon Im

Proceedings of the AAAI Conference on Artificial Intelligence

우리는 다중 프롬프트 스토리텔링 시나리오에 맞춤화된, 학습 없이도 일관된 텍스트-대-이미지(T2I) 생성을 가능하게 하는 훈련 비의존 프레임워크인 Infinite-Story를 제시한다. 우리는 스케일 단위의 자기회귀 모델을 기반으로 하여, 일관된 T2I 생성에서의 두 가지 핵심 과제—정체성 불일치와 스타일 불일치—를 다룬다. 이러한 문제를 해결하기 위해 세 가지 상호보완적 기법을 도입한다. 첫째, Identity Prompt Replacement는 텍스트 인코더에서의 문맥 편향을 완화하여 프롬프트 전반에 걸쳐 정체성 특성을 정렬한다. 둘째, Adaptive Style Injection과 Synchronized Guidance Adaptation으로 구성된 통합 어텐션 가이던스 메커니즘은 프롬프트 충실도를 보존하면서 전역 스타일과 정체성의 외양 일관성을 함께 강제한다. 미세조정이 필요하거나 느린 추론을 겪는 기존 확산 기반 접근법과 달리, Infinite-Story는 전적으로 테스트 시점에서만 작동하며 다양한 프롬프트에 대해 높은 정체성과 스타일 일관성을 제공한다. 광범위한 실험 결과, 본 방법은 생성 성능에서 최첨단 수준을 달성함과 동시에, 기존의 가장 빠른 일관된 T2I 모델보다 6배 이상 빠른 추론(이미지당 1.72초)을 제공하는 것으로 나타나, 실현 가능성과 효과를 실세계 시각적 스토리텔링에 걸쳐 입증한다.

https://doi.org/10.1609/aaai.v40i10.37776

Identity (music)

Consistency (knowledge bases)

Context (archaeology)

Style (visual arts)

Key (lock)

preprint

인용수 0

2026

CVA: Context-aware Video-text Alignment for Video Temporal Grounding

Sungho Moon, Seunghun Lee, Jiwan Seo, Sunghoon Im

arXiv (Cornell University)

우리는 비디오 시간적 근거(temporal grounding)에서 중요한 과제인, 무관한 배경 맥락에 대해서도 견고함을 유지하면서 시간적으로 민감한 비디오-텍스트 정렬을 달성하는 Context-aware Video-text Alignment(CVA)라는 새로운 프레임워크를 제안한다. 우리의 프레임워크는 세 가지 핵심 구성 요소로 이루어진다. 첫째, 우리는 의미적으로 관련 없는 콘텐츠만 혼합되도록 보장하는 새로운 데이터 증강 전략인 Query-aware Context Diversification(QCD)을 제안한다. 이는 쿼리 비특화(query-agnostic) 혼합으로 인해 발생하는 ``false negative''를 방지하면서, 다양한 맥락을 시뮬레이션하기 위해 비디오-텍스트 유사도 기반의 대체 클립 풀(pool)을 구축한다. 둘째, 우리는 어려운 시간 경계(temporal boundaries)에서 의미적 일관성을 강제하여, 그 표현이 맥락 변화와 하드 네거티브(hard negatives)에 대해 강건해지도록 하는 대비 학습(contrastive) 손실인 Context-invariant Boundary Discrimination(CBD) 손실을 도입한다. 셋째, 우리는 다중 스케일 시간적 맥락을 포착하기 위해 학습 가능한 쿼리를 사용하여 윈도우 기반 자기-어텐션(windowed self-attention)과 양방향 크로스-어텐션(bidirectional cross-attention)을 결합한 계층적 아키텍처인 Context-enhanced Transformer Encoder(CTE)를 도입한다. 이러한 데이터 중심의 개선과 아키텍처 개선의 시너지를 통해 CVA는 QVHighlights 및 Charades-STA를 포함한 주요 VTG 벤치마크에서 최첨단 성능을 달성한다. 특히, 우리의 방법은 기존 최첨단 방법 대비 Recall@1(R1) 점수에서 약 5점의 유의미한 향상을 보이며, false negative를 완화하는 데 효과적임을 강조한다.

https://doi.org/10.48550/arxiv.2603.24934

Encoder

Transformer

Bespoke

Key (lock)

Robustness (evolution)

Context (archaeology)

Architecture

Landmark

Consistency (knowledge bases)

Context model

article

인용수 0

2026

CVA: Context-aware Video-text Alignment for Video Temporal Grounding

Sungho Moon, Seunghun Lee, Jiwan Seo, Sunghoon Im

ArXiv.org

우리는 비디오 시간적 그라운딩에서의 중요한 문제—시간에 민감한 비디오-텍스트 정렬을 달성하면서도 무관한 배경 맥락에 대해 견고함을 유지하는 것—를 해결하기 위한 새로운 프레임워크인 문맥 인지 비디오-텍스트 정렬(Context-aware Video-text Alignment, CVA)을 제안한다. 우리의 프레임워크는 세 가지 핵심 구성요소로 이루어진다. 첫째, 우리는 의미적으로 무관한 콘텐츠만이 혼합되도록 보장하는 새로운 데이터 증강 전략인 질의 인지 문맥 다변화(Query-aware Context Diversification, QCD)를 제안한다. 이는 질의 비의존적 혼합으로 인해 발생하는 ``false negative''를 방지하면서, 다양한 맥락을 모사하기 위해 비디오-텍스트 유사도 기반의 대체 클립 풀을 구축한다. 둘째, 우리는 까다로운 시간 경계에서 의미 일관성을 강제하여, 해당 경계의 표현이 문맥 변화 및 어려운 네거티브(hard negatives)에 강건하도록 하는 대조학습(contrastive) 손실인 문맥 불변 경계 판별(Context-invariant Boundary Discrimination, CBD) 손실을 도입한다. 셋째, 우리는 다중 스케일의 시간적 맥락을 포착하기 위해 학습 가능한 질의를 사용하여 윈도우 기반 자기-주의와 양방향 교차-주의를 결합하는 계층적 아키텍처인 문맥 강화 트랜스포머 인코더(Context-enhanced Transformer Encoder, CTE)를 도입한다. 이러한 데이터 중심의 개선과 아키텍처적 개선의 시너지를 통해, CVA는 QVHighlights 및 Charades-STA를 포함한 주요 VTG 벤치마크에서 최첨단 성능을 달성한다. 특히, 본 방법은 최첨단 방법 대비 Recall@1 (R1) 점수에서 약 5점의 유의미한 향상을 보이며, false negative를 완화하는 데 효과적임을 강조한다.

http://arxiv.org/abs/2603.24934

Encoder

Transformer

Bespoke

Key (lock)

Robustness (evolution)

Context (archaeology)

Architecture

Landmark

Consistency (knowledge bases)

Context model

preprint

인용수 0

2026

A Review of Online Diffusion Policy RL Algorithms for Scalable Robotic Control

Wonhyeok Choi, Shutong Ding, Minwoo Choi, Jungwan Woo, Kyumin Hwang, Jaeyeul Kim, Ye Shi, Sunghoon Im

Research Square

https://doi.org/10.21203/rs.3.rs-9346251/v1

Scalability

Reinforcement learning

Benchmark (surveying)

Software deployment

Field (mathematics)

Key (lock)

Robotics

preprint

인용수 0

2025

Self-supervised Monocular Depth Estimation Robust to Reflective Surface Leveraged by Triplet Mining

Wonhyeok Choi, Kyumin Hwang, Peng Wei, Minwoo Choi, Sunghoon Im

arXiv (Cornell University)

자기지도 단안 깊이 추정(SSMDE)은 단안 이미지의 조밀한 깊이 지도를 예측하는 것을 목표로 하며, RGB 이미지 시퀀스로부터 깊이를 학습함으로써 정답 깊이 라벨의 필요성을 없앤다. 이러한 접근은 지도학습 방식에 비해 데이터 획득을 단순화하지만, 램버트 반사 가정에 위배되는 반사 표면의 경우에는 어려움을 겪어 그러한 표면에서 부정확한 학습이 발생한다. 이 문제를 해결하기 위해, 서로 다른 시점 간 카메라 기하정보에 의해 유도되는 방식으로 픽셀 수준에서 반사 영역을 식별하기 위해 트리플릿 마이닝을 활용하는 SSMDE를 위한 새로운 학습 전략을 제안한다. 제안된 반사 인지 트리플릿 마이닝 손실은 국소적인 반사 영역에서 부적절한 광도(photometric) 오차 최소화를 특별히 페널티로 부여하는 한편, 비반사 영역에서는 깊이 정확도를 보존한다. 또한 반사 인지 지식 증류 방법을 도입하여 학생 모델이 반사 및 비반사 영역으로부터 픽셀 수준의 지식을 선택적으로 학습할 수 있도록 한다. 그 결과 영역 전반에 걸쳐 견고한 깊이 추정이 가능해진다. 다수의 데이터셋에서의 평가 결과는 본 방법이 반사 표면에서 깊이 품질을 효과적으로 향상시키며, 최신 SSMDE 기준선보다 성능이 우수함을 보여준다.

http://arxiv.org/abs/2502.14573

Monocular

Estimation

Computer science

Artificial intelligence

Geology

Pattern recognition (psychology)

Engineering

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

전체 논문

article

인용수 0

2026

CascadeOcc: Rethinking 3D Occupancy World Models With Cascaded VQ Representations

Kyumin Hwang, Wonhyeok Choi, Jae-Yeul Kim, Ji‐Hun Park, Dae-Hee Park, Sunghoon Im

IF 3.9 (2026)

IEEE Signal Processing Letters

https://doi.org/10.1109/lsp.2026.3680426

Pattern recognition (psychology)

Representation (politics)

Probabilistic logic

Occupancy

Signal processing

Object (grammar)

article

인용수 3

2025

Flow4D: Leveraging 4D Voxel Network for LiDAR Scene Flow Estimation

Jae-Yeul Kim, Jungwan Woo, Ukcheol Shin, Jean Oh, Sunghoon Im

IF 5.3 (2025)

IEEE Robotics and Automation Letters

https://doi.org/10.1109/lra.2025.3542327

Lidar

Computer science

Voxel

Estimation

Flow (mathematics)

Artificial intelligence

Computer vision

Remote sensing

Geography

Engineering

article

인용수 21

2023

A Study on the Generality of Neural Network Structures for Monocular Depth Estimation

Jinwoo Bae, Kyumin Hwang, Sunghoon Im

IF 20.8 (2023)

IEEE Transactions on Pattern Analysis and Machine Intelligence

https://doi.org/10.1109/tpami.2023.3332407

Monocular

Artificial intelligence

Computer science

Generality

Transformer

Generalization

Pattern recognition (psychology)

Artificial neural network

Locality

Computer vision

article

인용수 60

2022

RVMOS: Range-View Moving Object Segmentation Leveraged by Semantic and Motion Features

Jae-Yeul Kim, Jungwan Woo, Sunghoon Im

IF 5.2 (2022)

IEEE Robotics and Automation Letters

https://doi.org/10.1109/lra.2022.3186080

Segmentation

Computer science

Artificial intelligence

Computer vision

Benchmark (surveying)

Feature (linguistics)

Object detection

Range (aeronautics)

Object (grammar)

Feature extraction

article

인용수 2

2022

CMSNet: Deep Color and Monochrome Stereo

Hae‐Gon Jeon, Sunghoon Im, Jaesung Choe, Minjun Kang, Joon‐Young Lee, Martial Hebert

IF 19.5 (2022)

International Journal of Computer Vision

https://doi.org/10.1007/s11263-021-01565-6

Monochrome

Artificial intelligence

Computer vision

Computer science

Chrominance

Noise (video)

Computer stereo vision

Convolutional neural network

Luminance

Color image

article

인용수 0

2026

Infinite-Story: A Training-Free Consistent Text-to-Image Generation

Jihun Park, Kyoungmin Lee, Jongmin Gim, Hyeonseo Jo, Minseok Oh, Wonhyeok Choi, Kyumin Hwang, Jaeyeul Kim, Minwoo Choi, Sunghoon Im

Proceedings of the AAAI Conference on Artificial Intelligence

https://doi.org/10.1609/aaai.v40i10.37776

Identity (music)

Consistency (knowledge bases)

Context (archaeology)

Style (visual arts)

Key (lock)

preprint

인용수 0

2026

CVA: Context-aware Video-text Alignment for Video Temporal Grounding

Sungho Moon, Seunghun Lee, Jiwan Seo, Sunghoon Im

arXiv (Cornell University)

https://doi.org/10.48550/arxiv.2603.24934

Encoder

Transformer

Bespoke

Key (lock)

Robustness (evolution)

Context (archaeology)

Architecture

Landmark

Consistency (knowledge bases)

Context model

article

인용수 0

2026

CVA: Context-aware Video-text Alignment for Video Temporal Grounding

Sungho Moon, Seunghun Lee, Jiwan Seo, Sunghoon Im

ArXiv.org

http://arxiv.org/abs/2603.24934

Encoder

Transformer

Bespoke

Key (lock)

Robustness (evolution)

Context (archaeology)

Architecture

Landmark

Consistency (knowledge bases)

Context model

preprint

인용수 0

2026

A Review of Online Diffusion Policy RL Algorithms for Scalable Robotic Control

Wonhyeok Choi, Shutong Ding, Minwoo Choi, Jungwan Woo, Kyumin Hwang, Jaeyeul Kim, Ye Shi, Sunghoon Im

Research Square

https://doi.org/10.21203/rs.3.rs-9346251/v1

Scalability

Reinforcement learning

Benchmark (surveying)

Software deployment

Field (mathematics)

Key (lock)

Robotics

preprint

인용수 0

2025

Self-supervised Monocular Depth Estimation Robust to Reflective Surface Leveraged by Triplet Mining

Wonhyeok Choi, Kyumin Hwang, Peng Wei, Minwoo Choi, Sunghoon Im

arXiv (Cornell University)

http://arxiv.org/abs/2502.14573

Monocular

Estimation

Computer science

Artificial intelligence

Geology

Pattern recognition (psychology)

Engineering

주요 논문

*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.

article

인용수 0

2026

CascadeOcc: Rethinking 3D Occupancy World Models With Cascaded VQ Representations

Kyumin Hwang, Wonhyeok Choi, Jae-Yeul Kim, Ji‐Hun Park, Dae-Hee Park, Sunghoon Im

IF 3.9 (2026)

IEEE Signal Processing Letters

https://doi.org/10.1109/lsp.2026.3680426

Pattern recognition (psychology)

Representation (politics)

Probabilistic logic

Occupancy

Signal processing

Object (grammar)

article

인용수 3

2025

Flow4D: Leveraging 4D Voxel Network for LiDAR Scene Flow Estimation

Jae-Yeul Kim, Jungwan Woo, Ukcheol Shin, Jean Oh, Sunghoon Im

IF 5.3 (2025)

IEEE Robotics and Automation Letters

https://doi.org/10.1109/lra.2025.3542327

Lidar

Computer science

Voxel

Estimation

Flow (mathematics)

Artificial intelligence

Computer vision

Remote sensing

Geography

Engineering

article

인용수 21

2023

A Study on the Generality of Neural Network Structures for Monocular Depth Estimation

Jinwoo Bae, Kyumin Hwang, Sunghoon Im

IF 20.8 (2023)

IEEE Transactions on Pattern Analysis and Machine Intelligence

https://doi.org/10.1109/tpami.2023.3332407

Monocular

Artificial intelligence

Computer science

Generality

Transformer

Generalization

Pattern recognition (psychology)

Artificial neural network

Locality

Computer vision

article

인용수 60

2022

RVMOS: Range-View Moving Object Segmentation Leveraged by Semantic and Motion Features

Jae-Yeul Kim, Jungwan Woo, Sunghoon Im

IF 5.2 (2022)

IEEE Robotics and Automation Letters

https://doi.org/10.1109/lra.2022.3186080

Segmentation

Computer science

Artificial intelligence

Computer vision

Benchmark (surveying)

Feature (linguistics)

Object detection

Range (aeronautics)

Object (grammar)

Feature extraction

article

인용수 2

2022

CMSNet: Deep Color and Monochrome Stereo

Hae‐Gon Jeon, Sunghoon Im, Jaesung Choe, Minjun Kang, Joon‐Young Lee, Martial Hebert

IF 19.5 (2022)

International Journal of Computer Vision

https://doi.org/10.1007/s11263-021-01565-6

Monochrome

Artificial intelligence

Computer vision

Computer science

Chrominance

Noise (video)

Computer stereo vision

Convolutional neural network

Luminance

Color image