주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
article
|
·
인용수 0
·
2026CascadeOcc: Rethinking 3D Occupancy World Models With Cascaded VQ Representations
Kyumin Hwang, Wonhyeok Choi, Jae-Yeul Kim, Ji‐Hun Park, Dae-Hee Park, Sunghoon Im
IF 3.9 (2026)
IEEE Signal Processing Letters
이 편지는 자율주행을 위해 외재적 보조 양식보다 본질적인 구조적 계층성을 우선하는 새로운 점유(occupancy) 월드 모델인 CascadeOcc를 제안한다. 점유 월드 모델—미래의 주행 환경을 예측하고 주행 궤적을 계획하는—은 지각과 계획을 효과적으로 연결하지만, 현재의 접근들은 종종 외부 양식이나 대규모 언어 모델에 크게 의존하여 점유 표현 그 자체가 지니는 내재적 구조적 잠재력을 충분히 활용하지 못하는 경우가 많다. 복잡한 3D 장면에 대한 표현 능력을 향상시키기 위해, 우리는 자기회귀 프레임워크에 계단식 Vector Quantized (VQ) 메커니즘을 통합한다. 거친 것에서 정교한 것으로(coarse-to-fine)이라는 원리에 따라, CascadeOcc는 다중 스케일 아키텍처를 통해 전역 구조로부터 미세한 디테일을 점진적으로 정교화한다. 또한, 다중 스케일 시간적 의존성을 포착하기 위해 TimeMixer를 도입하여 공간과 시간 모두에서 이중 계층(dual-hierarchy) 메커니즘을 구축한다. 4D 점유 예측 및 모션 계획 벤치마크에 대한 실험 결과는 CascadeOcc가 비전 중심 접근들 가운데서도 우수한 성능을 달성함을 보여주며, 내재적 표현을 최적화하는 것이 외부 파운데이션 모델에 의존하는 것에 대한 강력한 대안임을 검증한다.
https://doi.org/10.1109/lsp.2026.3680426
Pattern recognition (psychology)
Representation (politics)
Probabilistic logic
Occupancy
Signal processing
Object (grammar)
2
article
|
·
인용수 3
·
2025Flow4D: Leveraging 4D Voxel Network for LiDAR Scene Flow Estimation
Jae-Yeul Kim, Jungwan Woo, Ukcheol Shin, Jean Oh, Sunghoon Im
IF 5.3 (2025)
IEEE Robotics and Automation Letters
주변 환경의 운동 상태를 이해하는 것은 안전한 자율주행에 있어 핵심적이다. 이러한 운동 상태는 점들의 3차원 운동장을 포착하는 scene flow로부터 정확하게 도출될 수 있다. 기존의 LiDAR scene flow 방법들은 각 포인트 클라우드로부터 공간 특징을 추출한 다음 이를 채널별로 융합하여, 시공간 특징을 암묵적으로 추출하는 결과를 초래한다. 또한 2D Bird's Eye View를 활용하고 단지 두 프레임만 처리하여, Z축 방향의 중요한 공간 정보를 놓치고 더 넓은 시간적 맥락도 반영하지 못함으로써 성능이 최적이 아니다. 이러한 한계를 해결하기 위해 본 연구에서는 Flow4D를 제안한다. Flow4D는 3D intra-voxel feature encoder 이후 다수의 포인트 클라우드를 시간적으로 융합함으로써, 4D voxel 네트워크를 통해 시공간 특징을 보다 명시적으로 추출할 수 있게 한다. 그러나 4D 컨볼루션을 사용하면 성능이 향상되는 동시에 계산량이 크게 증가한다. 추가적인 효율을 위해, 우리는 무거운 4D 컨볼루션 대신 3D 및 1D 컨볼루션을 결합하는 Spatio-Temporal Decomposition Block (STDB)를 도입한다. 또한 Flow4D는 더 풍부한 시간 정보를 활용하기 위해 5개 프레임을 사용함으로써 성능을 한층 더 향상시킨다. 그 결과, 제안된 방법은 실시간으로 동작하면서 기존의 최신 기술 대비 45.9% 더 높은 성능을 달성하였고, 2024 Argoverse 2 Scene Flow Challenge에서 1st 자리를 수상하였다.
https://doi.org/10.1109/lra.2025.3542327
Lidar
Computer science
Voxel
Estimation
Flow (mathematics)
Artificial intelligence
Computer vision
Remote sensing
Geography
Engineering
3
article
|
·
인용수 21
·
2023A Study on the Generality of Neural Network Structures for Monocular Depth Estimation
Jinwoo Bae, Kyumin Hwang, Sunghoon Im
IF 20.8 (2023)
IEEE Transactions on Pattern Analysis and Machine Intelligence
단안 깊이 추정은 널리 연구되어 왔으며, 최근 성능에 대한 상당한 개선 결과가 보고되었다. 그러나 대부분의 선행 연구는 KITTI 데이터셋과 같은 소수의 벤치마크 데이터셋에서만 평가되었고, 단안 깊이 추정의 일반화 성능에 대한 심층 분석을 제공한 연구는 없다. 본 논문에서는 단안 깊이 추정의 일반화를 위해 다양한 백본 네트워크(예: CNN 및 Transformer 모델)를 면밀히 조사한다. 먼저, 네트워크 학습 중에는 한 번도 접해보지 않은 데이터인 in-distribution 및 out-of-distribution 데이터셋 모두에서 최신 기법 모델들을 평가한다. 다음으로, 합성 텍스처-시프트(texture-shifted) 데이터셋을 사용하여 CNN-/Transformer 기반 모델의 중간 층에서 얻은 표현(representations)의 내부 특성을 분석한다. 광범위한 실험을 통해, Transformer는 강한 형태 편향(shape-bias)을 보이는 반면 CNN은 강한 질감 편향(texture-bias)을 보인다는 점을 관찰한다. 또한 질감 편향 모델은 단안 깊이 추정에서 형태 편향 모델보다 더 나쁜 일반화 성능을 보임을 발견한다. 다양한 환경에서 촬영된 실제 주행 데이터셋에서도 유사한 양상이 나타남을 시연한다. 마지막으로, 현대의 전략들에서 활용되는 다양한 백본 네트워크를 대상으로 밀집(dense) 애블레이션 연구를 수행한다. 실험 결과는 CNN의 고유한 국소성(intrinsic locality)과 Transformer의 자기-어텐션(self-attention)이 각각 질감 편향 및 형태 편향을 유발한다는 것을 보여준다.
https://doi.org/10.1109/tpami.2023.3332407
Monocular
Artificial intelligence
Computer science
Generality
Transformer
Generalization
Pattern recognition (psychology)
Artificial neural network
Locality
Computer vision
4
article
|
·
인용수 60
·
2022RVMOS: Range-View Moving Object Segmentation Leveraged by Semantic and Motion Features
Jae-Yeul Kim, Jungwan Woo, Sunghoon Im
IF 5.2 (2022)
IEEE Robotics and Automation Letters
자율주행에서 교통 참여자를 탐지하는 일은 필수적이며 오래된 과제이다. 최근에는 안전 주행을 위해 움직이는 물체의 인식이 이 분야의 주요 쟁점으로 부상하고 있다. 본 논문에서는 연속된 range-view 영상으로부터 움직이는 물체를 분할하는 LiDAR range-view 기반 Moving Object Segmentation 프레임워크인 RVMOS를 제안한다. 기존 방법과 달리, 우리의 네트워크는 각기 물체의 운동을 인코딩하는 ‘모션’ 특징과 물체를 둘러싼 상황을 인코딩하는 ‘시맨틱’ 특징을 모두 포함한다. 또한 range-view 영상에 적합하도록 설계된 새로운 특징 추출 모듈을 고안하였다. 마지막으로 단순하지만 효과적인 데이터 증강 기법으로서 시간 간격 조절(time interval modulation)과 영(0) 잔차 영상 합성(zero residual image synthesis)을 도입한다. 이러한 기여를 통해 SemanticKitti 벤치마크에서 최신 기술 대비 10% 더 빠른 연산 시간( RTX 3090에서 34 FPS )으로 mIoU 기준 19% 향상된 성능을 달성하였다. 광범위한 실험을 통해 본 네트워크 설계와 데이터 증강 방식의 효과가 입증되었다.
https://doi.org/10.1109/lra.2022.3186080
Segmentation
Computer science
Artificial intelligence
Computer vision
Benchmark (surveying)
Feature (linguistics)
Object detection
Range (aeronautics)
Object (grammar)
Feature extraction
5
article
|
·
인용수 2
·
2022CMSNet: Deep Color and Monochrome Stereo
Hae‐Gon Jeon, Sunghoon Im, Jaesung Choe, Minjun Kang, Joon‐Young Lee, Martial Hebert
IF 19.5 (2022)
International Journal of Computer Vision
https://doi.org/10.1007/s11263-021-01565-6
Monochrome
Artificial intelligence
Computer vision
Computer science
Chrominance
Noise (video)
Computer stereo vision
Convolutional neural network
Luminance
Color image