주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
article
|
·
인용수 4
·
2025Social Reasoning-Aware Trajectory Prediction via Multimodal Language Model
Inhwan Bae, Junoh Lee, Hae‐Gon Jeon
IF 18.6 (2025)
IEEE Transactions on Pattern Analysis and Machine Intelligence
최근의 언어 모델 발전은 문맥 이해와 생성적 표상을 수행할 수 있는 능력을 보여주었다. 이러한 발전을 바탕으로, 우리는 VLMTraj라는 이름의 비전-언어 모델을 기반으로 한 새로운 멀티모달 궤적 예측(multimodal trajectory predictor)을 제안하며, 멀티모달 대규모 언어 모델의 사전 지식과 다양한 양식(modality) 정보 전반에 걸친 인간과 유사한 추론 능력을 충분히 활용한다. 본 모델의 핵심 아이디어는 궤적 예측 과제를 시각 질의응답(visual question answering) 형식으로 재구성하는 것이다. 역사적 정보를 문맥(context)으로 사용하고, 언어 모델에게 대화형 방식으로 예측을 수행하도록 지시한다. 구체적으로, 모든 입력을 자연어 스타일로 변환한다. 과거 궤적은 텍스트 프롬프트로 변환하고, 장면 이미지는 이미지 캡셔닝(image captioning)을 통해 기술한다. 또한 입력 이미지로부터 얻은 시각적 특징 역시 모달리티 인코더(modality encoder)와 커넥터(connector)를 통해 토큰으로 변환한다. 변환된 데이터는 이후 언어 모델에 사용될 수 있도록 포맷화된다. 다음으로, 장면 맥락과 보행자 간 사회적 관계와 같은 고수준 지식을 언어 모델이 이해하고 추론하도록 유도하기 위해, 보조적인 멀티태스크 질의응답(auxiliary multi-task question and answers)을 도입한다. 학습 단계에서는 먼저 프롬프트 데이터를 사용하여 수치 토크나이저(numerical tokenizer)를 최적화함으로써 정수와 소수 부분을 효과적으로 분리하여, 언어 모델에서 연속된 수들 간의 상관관계를 포착할 수 있도록 한다. 이후 모든 시각 질의응답 프롬프트를 사용하여 언어 모델을 학습한다. 모델 추론 시에는 빔서치(beam-search) 기반 최빈도(most-likely) 예측과 온도(temperature) 기반 멀티모달 생성(multimodal generation)을 통해 결정론적 및 확률론적 예측 방법을 모두 구현한다. VLMTraj는 언어 기반 모델이 강력한 보행자 궤적 예측기(pedestrian trajectory predictor)가 될 수 있음을 입증하며, 기존의 수치 기반 예측 방법을 능가한다. 광범위한 실험을 통해 VLMTraj는 사회적 관계를 성공적으로 이해하고, 공공 보행자 궤적 예측 벤치마크에서 멀티모달 미래를 정확하게 외삽(extrapolate)할 수 있음을 보여준다.
https://doi.org/10.1109/tpami.2025.3582000
Computer science
Closed captioning
Language model
Artificial intelligence
Context (archaeology)
Natural language processing
Question answering
Generative model
Task (project management)
Natural language
2
article
|
·
인용수 1
·
2024What Makes Deviant Places?
Jin-Hwi Park, Young-Jae Park, Ilyung Cheong, Junoh Lee, Young Eun Huh, Hae‐Gon Jeon
IF 18.6 (2024)
IEEE Transactions on Pattern Analysis and Machine Intelligence
도시 안전은 시민의 삶의 질과 도시의 지속가능한 발전에 필수적인 역할을 한다. 최근 몇 년 동안 연구자들은 도시 안전의 발전에서 위치 특이적 속성이 차지하는 역할을 파악하기 위해 기계학습 기법을 적용하려는 시도를 해왔다. 그러나 기존 연구는 주로 상대적으로 큰 지리적 단위에 기반한 제한된 이미지(예: 지도 이미지, 단일 방향 또는 네 방향 이미지)에 의존해 왔으며, 중대한 범죄율에만 협소하게 초점을 맞춰 예측 성능과 도시 안전에 대한 함의를 제한한다. 본 연구에서는 공식적 일탈 범죄(예: 살인)와 비공식적 일탈 행위(예: 야간의 시끄러운 파티)를 모두 포함하는 개념인 “일탈(deviance)”을 예측하는 새로운 방법을 제안한다. 이를 위해 먼저, Google Street View에서 제공된 사건 현장 주변의 순차적 이미지와 함께, 일곱 개 광역도시의 사건 보고 데이터로 구성된 대규모 지오태그(geo-tagged) 데이터셋을 수집한다. 이후 우리는 일탈 거리(deviant streets)의 시공간적 시각 속성을 학습하는 합성곱 신경망을 설계한다. 실험 결과, 본 프레임워크는 다양한 도시에서 실제 세계의 일탈을 신뢰성 있게 인식할 수 있음을 보여준다. 또한 우리는 사회과학적 관점에서 일탈 식별 및 심각도 추정에 어떤 시각 속성이 중요한지, 그리고 신경망에서 활성화된 특징 맵(feature maps)이 무엇인지 분석한다.
https://doi.org/10.1109/tpami.2024.3393408
Computer science
Artificial intelligence
Computer vision
3
article
|
인용수 11
·
2023DeepGT: Deep learning-based quantification of nanosized bioparticles in bright-field micrographs of Gires-Tournois biosensor
Jiwon Kang, Young Jin Yoo, Jin-Hwi Park, Joo Hwan Ko, Seungtaek Kim, Stefan G. Stanciu, Harald Stenmark, JinAh Lee, Abdullah Al Mahmud, Hae‐Gon Jeon, Young Min Song
IF 13.2 (2023)
Nano Today
감염 환자에서 바이러스 부하 프로파일을 신속하고 분산된 방식으로 정량화하는 것은 임상적 중증도를 평가하고 적절한 치료 전략을 맞춤화하는 데 필수적이다. 현미경 영상은 표지 및 증폭 없이 정량 진단을 제공할 가능성이 있으나, 생체입자의 작은 크기(직경 ∼100 nm)와 낮은 굴절률(n ∼1.5)은 정확한 추정의 달성에 어려움을 야기하여 결과적으로 검출한계(LoD)를 증가시킨다. 본 연구에서는 나노스케일 생체입자 계수 정확도를 향상시키기 위해 Gires-Tournois(GT) 센싱 플랫폼과 딥러닝 알고리즘을 결합한 새로운 시너지 바이오센싱 접근법 DeepGT를 제시한다. GT 센싱 플랫폼은 포토닉 공진자로서 명시야 현미경에서 생체입자의 가시성을 증가시키고 색채 대비를 최대화한다. DeepGT는 팽창(dilated)된 합성곱 신경망 아키텍처의 백엔드를 사용함으로써 인공물과 색상 편차를 효과적으로 정제하여, 규칙 기반 알고리즘( MAE ∼ 13.47)과 비교해 입자 추정 정확도를 유의하게 개선한다(1596개 이미지 전반에서 MAE ∼2.37). 특히, 보이지 않는 입자(예: 2개 또는 3개 입자)의 검출에서 향상된 정확도는 138 pg ml−1의 LoD를 가능하게 하며, 감염 스펙트럼에서 무증상부터 중증 사례에 이르기까지 임상 범위 내의 낮은 바이러스 농도 구간에서 동적인 선형 상관을 촉진한다. DeepGT는 공간 해상도 접근이 아닌 크로마토메트리(chromatometry) 기반 전략에 의존하면서, 전이학습을 활용한 결과 현미경 시스템의 가시광 최소 회절 한계(< 258 nm)보다 더 작은 다양한 크기의 입자를 분석할 때 탁월한 정밀도를 보인다. DeepGT 접근법은 출현하는 바이러스에 대한 조기 스크리닝 및 선별(triage)에 대한 가능성을 가지며, 진단에서의 비용과 시간 요구 사항을 줄일 수 있다.
https://doi.org/10.1016/j.nantod.2023.101968
Deep learning
Computer science
Materials science
Detection limit
Nanotechnology
Microscopy
Artificial intelligence
Biological system
Optics
Physics
4
article
|
인용수 21
·
2023Full‐Control and Switching of Optical Fano Resonance by Continuum State Engineering
Joo Hwan Ko, Jin‐Hwi Park, Young Jin Yoo, Sehui Chang, Jiwon Kang, Aiguo Wu, Fang Yang, Sejeong Kim, Hae‐Gon Jeon, Young Min Song
IF 14.3 (2023)
Advanced Science
비대칭 선형상으로 알려진 파노 공명(Fano resonance)은 특히 센싱 응용 분야에서 포토닉스 분야에서 큰 주목을 받아 왔다. 그러나 단순한 기하학적 구조를 통해 조절 가능한 파노 파라미터를 구현하는 것은 여전히 어렵다. 본 연구에서는 준-로렌츠(quasi-Lorentzian)에서 로렌츠(Lorentzian)로, 다시 파노(Fano)로 이르는 전 구간의 스펙트럼 형상을 생성하기 위해 다공성 층을 포함한 박막 광 파노 공진기를 사용하는 새로운 접근법을 제안하고, 이를 실험적으로 입증한다. 사각 입사(glancing angle) 증착 기술을 활용하여 편광 의존적 Fano 공진기를 제작한다. s-편광과 p-편광 사이의 선형 편광을 변화시킴으로써, 준-로렌츠 상태와 음(-)의 파노 상태 사이를 전환 가능한 Fano 장치를 시연한다. 이러한 스펙트럼 형상의 변화는 굴절률이 낮은 물질을 검출하는 데 유리하다. 또한 생체 입자(bio-particle) 센싱 실험을 수행하여 신호 대 잡음비 및 예측 정확도가 향상됨을 보여준다. 마지막으로, 층 두께, 공극률(다공성), 재료 선택을 포함한 다수의 파라미터 간의 복잡한 상호작용 때문에 박막 기반 Fano 공진기를 최적화하는 과제를 다룬다. 다층 퍼셉트론(multilayer perceptron) 모델에 기반한 역설계 도구(inverse design tool)를 개발하여, 모든 범위의 Fano 파라미터에 대해 신속한 계산이 가능하도록 한다. 이 방법은 기존의 전수열거(conventional exhaustive enumeration) 방법(MVF = 0.37)보다 평균 검증 인자(mean validation factor, MVF = 0.07, q-q')에서 향상된 정확도를 제공한다.
https://doi.org/10.1002/advs.202304310
Fano resonance
Fano plane
Resonator
Polarization (electrochemistry)
Optics
Materials science
Physics
Optoelectronics
Plasmon
Mathematics
5
article
|
·
인용수 2
·
2022CMSNet: Deep Color and Monochrome Stereo
Hae‐Gon Jeon, Sunghoon Im, Jaesung Choe, Minjun Kang, Joon‐Young Lee, Martial Hebert
IF 19.5 (2022)
International Journal of Computer Vision
https://doi.org/10.1007/s11263-021-01565-6
Monochrome
Artificial intelligence
Computer vision
Computer science
Chrominance
Noise (video)
Computer stereo vision
Convolutional neural network
Luminance
Color image