전해곤 교수 연구실 | 연세대학교 인공지능학과

전해곤 연구실

연세대학교 인공지능학과 전해곤 교수

컴퓨터비전

딥러닝

광학 센싱

전해곤 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

홈

전해곤 연구실

연세대학교 인공지능학과 전해곤 교수

전해곤 연구실은 영상신호처리 및 컴퓨터비전 기반의 딥러닝을 중심으로 광학 센싱, 도시 시각 추론, 생성형 장면 편집을 함께 수행합니다. 다층 박막 Fano 공진과 GT 포토닉 레조네이터를 활용해 현미경 영상에서 미세 입자의 가시성을 높이고, 신경망으로 정량화 성능을 향상합니다. 또한 컬러-모노크롬 스테레오 정합과 연속 거리뷰 기반 deviance/궤적 예측 모델을 개발하여 스마트시티 모빌리티 분석에 적용합니다. 나아가 확산모델 기반 군중 생성, inbetweening의 시간 일관성 개선, dynamic illumination을 다루는 NeRF 분리 학습으로 메타버스·뉴럴 휴먼 제작 기술과의 연결을 확장합니다.

컴퓨터비전딥러닝광학 센싱Fano 공진뉴럴 렌더링

대표 연구 분야

연구 영역 전체보기

Fano 공진 기반 광학 바이오센싱 및 딥러닝 정량화 연구

Photonic Fano Resonator-Based Biosensing and Deep-Learning Quantification

연구 분야 상세보기

Fano 공진 기반 광학 바이오센싱 및 딥러닝 정량화 연구

Photonic Fano Resonator-Based Biosensing and Deep-Learning Quantification

연구 분야 상세보기

스테레오·도시 시각 추론 기반 경로 및 안전 이상 탐지 연구

Stereo and Urban Visual Reasoning for Trajectory Prediction and Anomaly Detection

연구 분야 상세보기

확산모델 기반 군중 생성과 동적 장면 편집·NeRF 표현 학습 연구

Diffusion-Based Crowd Generation and Dynamic Scene Editing with Neural Radiance Fields

연구 분야 상세보기

연구 성과 추이

표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

5개년 연도별 논문 게재 수

54총합

5개년 연도별 피인용 수

601총합

주요 논문

논문 전체보기

article

인용수 4

2025

Social Reasoning-Aware Trajectory Prediction via Multimodal Language Model

Inhwan Bae, Junoh Lee, Hae‐Gon Jeon

IF 18.6 (2025)

IEEE Transactions on Pattern Analysis and Machine Intelligence

최근의 언어 모델 발전은 문맥 이해와 생성적 표상을 수행할 수 있는 능력을 보여주었다. 이러한 발전을 바탕으로, 우리는 VLMTraj라는 이름의 비전-언어 모델을 기반으로 한 새로운 멀티모달 궤적 예측(multimodal trajectory predictor)을 제안하며, 멀티모달 대규모 언어 모델의 사전 지식과 다양한 양식(modality) 정보 전반에 걸친 인간과 유사한 추론 능력을 충분히 활용한다. 본 모델의 핵심 아이디어는 궤적 예측 과제를 시각 질의응답(visual question answering) 형식으로 재구성하는 것이다. 역사적 정보를 문맥(context)으로 사용하고, 언어 모델에게 대화형 방식으로 예측을 수행하도록 지시한다. 구체적으로, 모든 입력을 자연어 스타일로 변환한다. 과거 궤적은 텍스트 프롬프트로 변환하고, 장면 이미지는 이미지 캡셔닝(image captioning)을 통해 기술한다. 또한 입력 이미지로부터 얻은 시각적 특징 역시 모달리티 인코더(modality encoder)와 커넥터(connector)를 통해 토큰으로 변환한다. 변환된 데이터는 이후 언어 모델에 사용될 수 있도록 포맷화된다. 다음으로, 장면 맥락과 보행자 간 사회적 관계와 같은 고수준 지식을 언어 모델이 이해하고 추론하도록 유도하기 위해, 보조적인 멀티태스크 질의응답(auxiliary multi-task question and answers)을 도입한다. 학습 단계에서는 먼저 프롬프트 데이터를 사용하여 수치 토크나이저(numerical tokenizer)를 최적화함으로써 정수와 소수 부분을 효과적으로 분리하여, 언어 모델에서 연속된 수들 간의 상관관계를 포착할 수 있도록 한다. 이후 모든 시각 질의응답 프롬프트를 사용하여 언어 모델을 학습한다. 모델 추론 시에는 빔서치(beam-search) 기반 최빈도(most-likely) 예측과 온도(temperature) 기반 멀티모달 생성(multimodal generation)을 통해 결정론적 및 확률론적 예측 방법을 모두 구현한다. VLMTraj는 언어 기반 모델이 강력한 보행자 궤적 예측기(pedestrian trajectory predictor)가 될 수 있음을 입증하며, 기존의 수치 기반 예측 방법을 능가한다. 광범위한 실험을 통해 VLMTraj는 사회적 관계를 성공적으로 이해하고, 공공 보행자 궤적 예측 벤치마크에서 멀티모달 미래를 정확하게 외삽(extrapolate)할 수 있음을 보여준다.

https://doi.org/10.1109/tpami.2025.3582000

Computer science

Closed captioning

Language model

Artificial intelligence

Context (archaeology)

Natural language processing

Question answering

Generative model

Task (project management)

Natural language

article

인용수 1

2024

What Makes Deviant Places?

Jin-Hwi Park, Young-Jae Park, Ilyung Cheong, Junoh Lee, Young Eun Huh, Hae‐Gon Jeon

IF 18.6 (2024)

IEEE Transactions on Pattern Analysis and Machine Intelligence

도시 안전은 시민의 삶의 질과 도시의 지속가능한 발전에 필수적인 역할을 한다. 최근 몇 년 동안 연구자들은 도시 안전의 발전에서 위치 특이적 속성이 차지하는 역할을 파악하기 위해 기계학습 기법을 적용하려는 시도를 해왔다. 그러나 기존 연구는 주로 상대적으로 큰 지리적 단위에 기반한 제한된 이미지(예: 지도 이미지, 단일 방향 또는 네 방향 이미지)에 의존해 왔으며, 중대한 범죄율에만 협소하게 초점을 맞춰 예측 성능과 도시 안전에 대한 함의를 제한한다. 본 연구에서는 공식적 일탈 범죄(예: 살인)와 비공식적 일탈 행위(예: 야간의 시끄러운 파티)를 모두 포함하는 개념인 “일탈(deviance)”을 예측하는 새로운 방법을 제안한다. 이를 위해 먼저, Google Street View에서 제공된 사건 현장 주변의 순차적 이미지와 함께, 일곱 개 광역도시의 사건 보고 데이터로 구성된 대규모 지오태그(geo-tagged) 데이터셋을 수집한다. 이후 우리는 일탈 거리(deviant streets)의 시공간적 시각 속성을 학습하는 합성곱 신경망을 설계한다. 실험 결과, 본 프레임워크는 다양한 도시에서 실제 세계의 일탈을 신뢰성 있게 인식할 수 있음을 보여준다. 또한 우리는 사회과학적 관점에서 일탈 식별 및 심각도 추정에 어떤 시각 속성이 중요한지, 그리고 신경망에서 활성화된 특징 맵(feature maps)이 무엇인지 분석한다.

https://doi.org/10.1109/tpami.2024.3393408

Computer science

Artificial intelligence

Computer vision

article

인용수 11

2023

DeepGT: Deep learning-based quantification of nanosized bioparticles in bright-field micrographs of Gires-Tournois biosensor

Jiwon Kang, Young Jin Yoo, Jin-Hwi Park, Joo Hwan Ko, Seungtaek Kim, Stefan G. Stanciu, Harald Stenmark, JinAh Lee, Abdullah Al Mahmud, Hae‐Gon Jeon, Young Min Song

IF 13.2 (2023)

Nano Today

감염 환자에서 바이러스 부하 프로파일을 신속하고 분산된 방식으로 정량화하는 것은 임상적 중증도를 평가하고 적절한 치료 전략을 맞춤화하는 데 필수적이다. 현미경 영상은 표지 및 증폭 없이 정량 진단을 제공할 가능성이 있으나, 생체입자의 작은 크기(직경 ∼100 nm)와 낮은 굴절률(n ∼1.5)은 정확한 추정의 달성에 어려움을 야기하여 결과적으로 검출한계(LoD)를 증가시킨다. 본 연구에서는 나노스케일 생체입자 계수 정확도를 향상시키기 위해 Gires-Tournois(GT) 센싱 플랫폼과 딥러닝 알고리즘을 결합한 새로운 시너지 바이오센싱 접근법 DeepGT를 제시한다. GT 센싱 플랫폼은 포토닉 공진자로서 명시야 현미경에서 생체입자의 가시성을 증가시키고 색채 대비를 최대화한다. DeepGT는 팽창(dilated)된 합성곱 신경망 아키텍처의 백엔드를 사용함으로써 인공물과 색상 편차를 효과적으로 정제하여, 규칙 기반 알고리즘( MAE ∼ 13.47)과 비교해 입자 추정 정확도를 유의하게 개선한다(1596개 이미지 전반에서 MAE ∼2.37). 특히, 보이지 않는 입자(예: 2개 또는 3개 입자)의 검출에서 향상된 정확도는 138 pg ml−1의 LoD를 가능하게 하며, 감염 스펙트럼에서 무증상부터 중증 사례에 이르기까지 임상 범위 내의 낮은 바이러스 농도 구간에서 동적인 선형 상관을 촉진한다. DeepGT는 공간 해상도 접근이 아닌 크로마토메트리(chromatometry) 기반 전략에 의존하면서, 전이학습을 활용한 결과 현미경 시스템의 가시광 최소 회절 한계(< 258 nm)보다 더 작은 다양한 크기의 입자를 분석할 때 탁월한 정밀도를 보인다. DeepGT 접근법은 출현하는 바이러스에 대한 조기 스크리닝 및 선별(triage)에 대한 가능성을 가지며, 진단에서의 비용과 시간 요구 사항을 줄일 수 있다.

https://doi.org/10.1016/j.nantod.2023.101968

Deep learning

Computer science

Materials science

Detection limit

Nanotechnology

Microscopy

Artificial intelligence

Biological system

Optics

Physics

최신 정부 과제

과제 전체보기

2025년 6월-2028년 12월

|1,166,000,000원

인간 중심의 범용 인공지능을 위한 휴먼 파운데이션 모델 개발 및 인력양성

ㅇ 인간의 외형, 움직임, 물리적 특징, 사회적 상호작용 등의 다차원적 특징을 복합적으로 이해하고 생성·재현할 수 있는 인간 중심의 범용 휴먼 파운데이션 모델을 개발하고, 관련 분야를 선도할 수 있는 인재를 양성하는 것을 목표로 함 - 휴먼 파운데이션 모델 개발의 핵심은 크게 5가지 기술의 융합을 통해 이루어지며, 이는 1) 사회적 상호작용 및 물리적 표...

파운데이션 모델

디지털 휴먼

생성형 인공지능

물리적 인공지능

사람중심 인공지능

2025년 3월-2025년 12월

|50,000,000원

인공지능을 활용한 효과적 잡음 제거 기술 개발을 통한 3차원 객체 추정 최적화

● 물리 기반 인버스 렌더링은 전역 조명 효과 및 복잡한 장면의 물리적 특성 고려하여 고품질의 장면 파라미터를 추론할 수 있어 중요성이 높아지고 있으며, 3차원 객체를 디지털화하는 디지털 트윈/메타버스/증강현실/가상현실 분야에서 수요와 활용처가 증가하고 있음● 인버스 렌더링에 잡음 제거를 활용한 기존 기술은 잡음 제거기가 장면 파라미터 추정 가속화에 효과적...

인버스 렌더링

객체 추정

잡음 제거

제임스-스타인 추정량

그래디언트 결합기

2024년 3월-2029년 3월

|235,466,000원

군중 모델링을 통한 다중 환경 군집 행동 생성

본 과제에서 우리는 '밖에 나가면 흔히 볼 수 있는 자연스러운 군중 행동들을 수작업 없이 자동으로 생성'하기 위한 실세계 기반의 사회적 군중 모델링을 연구하고자 한다. 하지만, 인간 행동은 개별 보행자의 성격?환경?외부 이벤트 등 다양한 요소에 의해 좌우되므로, 통합 모델 개발에 어려움이 따른다. 기존 연구들은 보행자의 개성과 환경적 영향을 배제하고 단순화...

시각인지

보행자 모델링 및 생성

디지털 트윈

사람-환경 상호작용

3차원 복원

최신 특허

특허 전체보기

상태	출원연도	과제명	출원번호
등록	2023	인공지능 모델을 이용한 광학 현미경 이미지 개선 방법 및 이를 이용한 입자 정량화 방법	1020230094453
등록	2023	실 보행패턴을 나타내는 경로 기술자를 이용한 보행자 경로 예측 방법	1020230027247
등록	2023	태스크별 장면 구조 생성 방법	1020230008665

전체 특허

인공지능 모델을 이용한 광학 현미경 이미지 개선 방법 및 이를 이용한 입자 정량화 방법

상태

등록

출원연도

2023

출원번호

1020230094453

상세 정보 바로가기

실 보행패턴을 나타내는 경로 기술자를 이용한 보행자 경로 예측 방법

상태

등록

출원연도

2023

출원번호

1020230027247

상세 정보 바로가기

태스크별 장면 구조 생성 방법

상태

등록

출원연도

2023

출원번호

1020230008665

상세 정보 바로가기

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)