주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
article
|
인용수 0
·
2026Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection
Youbin Kim, Jinho Park, Hogun Park, Eunbyung Park
ArXiv.org
오픈 보캐뷸러리 3D 객체 탐지는 고정된 학습 분류 체계(training taxonomy) 밖에 있는 객체를 위치 추정하고 인식하는 것을 목표로 한다. 다중 뷰 RGB 설정에서 최근 접근법들은 흔히 기하 기반 인스턴스 구성(instance construction)과 의미 라벨링(semantic labeling)을 분리하여, 분류 비특정(class-agnostic) 조각 조각(fragment)을 생성한 뒤 사후적으로(open-vocabulary) 범주를 할당한다. 이러한 유연한 분리는, 병합(merging) 과정에서 의미적 제약이 부재한 상태에서 인스턴스 구성을 주로 기하적 일관성에 의해 좌우한다. 기하적 증거가 뷰 의존적이고 불완전할 때, 기하만에 기반한 병합은 서로 다른 객체 간의 잘못된 비가역적 연관(association error)으로 이어질 수 있으며, 예컨대 서로 다른 객체를 과도하게 병합(over-merging)하거나 단일 인스턴스를 분절(fragmentation)하는 문제가 발생한다. 본 연구에서는 인스턴스 구성 과정에 의미적 제약을 직접 통합하는 다중 뷰 오픈 보캐뷸러리 3D 탐지 프레임워크인 Group3D를 제안한다. Group3D는 멀티모달 대규모 언어 모델(multimodal large language model, MLLM)에서 유도한 장면 적응형(scene-adaptive) 보캐뷸러리를 유지하고, 이를 그럴듯한 교차 뷰 범주 동치성(cross-view category equivalence)을 인코딩하는 의미 호환성 그룹(semantic compatibility groups)으로 구성한다. 이러한 그룹은 병합 시점 제약(merge-time constraints)으로 작동한다. 즉, 3D 조각은 의미 호환성과 기하적 일관성 모두를 만족할 때만 연관된다. 의미에 의해 게이트된 병합은 기하 중심의 과도 병합을 완화하면서, 다중 뷰 범주 변동성도 수용한다. Group3D는 자세(pose)를 알 수 있는 설정과 자세가 없는 설정 모두를 지원하며, RGB 관측에만 의존한다. ScanNet 및 ARKitScenes에 대한 실험 결과, Group3D는 다중 뷰 오픈 보캐뷸러리 3D 탐지에서 최첨단 성능을 달성하는 동시에, 제로샷(zero-shot) 시나리오에서도 강력한 일반화 성능을 보인다. 프로젝트 페이지는 https://ubin108.github.io/Group3D/ 에서 확인할 수 있다.
http://arxiv.org/abs/2603.21944
Vocabulary
ENCODE
RGB color model
Object detection
Semantic mapping
Pattern recognition (psychology)
2
article
|
인용수 5
·
2025DiffuseHigh: Training-Free Progressive High-Resolution Image Synthesis Through Structure Guidance
Younghyun Kim, Geunmin Hwang, Junyu Zhang, Eunbyung Park
Proceedings of the AAAI Conference on Artificial Intelligence
대규모 생성 모델(예: 텍스트-투-이미지 확산 모델)은 창의적이고 고품질의 이미지 생성을 통해 다양한 분야에서 큰 주목을 받아왔다. 그럼에도 불구하고 기존의 대규모 확산 모델은 최대 1K 해상도의 이미지만 생성할 수 있어, 오늘날의 현대적 상업 응용에서 요구하는 수준에는 크게 미치지 못한다. 더 높은 해상도의 이미지를 직접 샘플링하면 흔히 객체 반복, 형태 왜곡과 같은 아티팩트로 인해 결과가 손상된다. 이러한 문제를 해결하려면 통상적으로 더 높은 해상도의 데이터셋에 대해 모델을 학습하거나 미세조정해야 한다. 그러나 이는 대규모 고해상도 이미지를 수집하기 어렵고 막대한 계산 자원이 필요하다는 점에서 매우 도전적이다. 일부 선행 연구에서는 번거로운 학습 과정을 우회하는 대안을 제안했지만, 대체로 설득력 있는 결과를 도출하지 못한다. 본 연구에서는 원래의 능력을 넘어 더 높은 해상도에서 확산 모델의 생성 가능성을 탐구하고, 생성된 저해상도 이미지를 고해상도 이미지 생성에 충분히 활용하도록 하는 새로운 점진적(progressive) 접근법을 제안한다. 또한 파이프라인에 이미지 샤프닝(image sharpening) 연산을 통합하여 이미지 품질을 한층 더 향상시킨다. 우리의 방법은 추가적인 학습 또는 미세조정의 필요성을 없애며, 이로써 계산 비용의 부담을 크게 낮춘다. 대규모 실험과 결과를 통해 방법의 효율성과 효과를 검증하였다.
https://doi.org/10.1609/aaai.v39i4.32456
Training (meteorology)
Computer science
Computer vision
Artificial intelligence
Geography
3
article
|
·
인용수 22
·
2024Hydra: Multi-head low-rank adaptation for parameter efficient fine-tuning
Sanghyeon Kim, Hyun-Mo Yang, Yunghyun Kim, Youngjoon Hong, Eunbyung Park
IF 6.3 (2024)
Neural Networks
https://doi.org/10.1016/j.neunet.2024.106414
Computer science
Lernaean Hydra
Inference
Adaptation (eye)
Generalization
Fine-tuning
Artificial intelligence
Machine learning
Theoretical computer science
4
article
|
·
인용수 2
·
2024Rethinking convolutional neural networks for trajectory refinement
Hanbit Yoon, Usman Ali, J.S. Choi, Eunbyung Park
IF 7.6 (2024)
Pattern Recognition
https://doi.org/10.1016/j.patcog.2024.110883
Trajectory
Convolutional neural network
Computer science
Artificial intelligence
Algorithm
5
erratum
|
인용수 0
·
2024Corrigendum to “Hydra: Multi-head Low-rank Adaptation for Parameter Efficient Fine-tuning” [Neural Networks Volume 178, October (2024), 1-11/106414]]
Sanghyeon Kim, Hyun-Mo Yang, Younghyun Kim, Youngjoon Hong, Eunbyung Park
IF 6.3 (2024)
Neural Networks
https://doi.org/10.1016/j.neunet.2024.106878
Lernaean Hydra
Head (geology)
Adaptation (eye)
Rank (graph theory)
Computer science
Volume (thermodynamics)
Artificial neural network
Artificial intelligence
Mathematics
Neuroscience