박은병 교수 연구실 | 연세대학교 인공지능학과

박은병 연구실

연세대학교 인공지능학과 박은병 교수

생성형 모델

확산 모델

3D Gaussian Splatting

박은병 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

홈

박은병 연구실

연세대학교 인공지능학과 박은병 교수

박은병 연구실은 인공지능학과 관점에서 기계학습 기반 컴퓨터 비전과 생성형 모델을 중심으로 연구를 수행합니다. 파라미터 효율 적응과 학습 없는(training-free) 확산 모델 파이프라인을 통해 고해상도 이미지·비디오 합성을 다룹니다. 또한 3D Gaussian Splatting과 뉴럴 필드 기반 표현을 활용해 pose-free·prior-free 일반화 재구성과 3D super-resolution을 연구합니다. 이와 함께 오픈보카블 3D 디텍션에서 의미 제약을 병합 과정에 통합하고, 영상 기반 궤적 정련 및 CCTV 기반 시공간 분석 같은 응용으로 확장합니다.

생성형 모델확산 모델3D Gaussian Splatting3D 재구성뉴럴 필드

대표 연구 분야

연구 영역 전체보기

학습 없이 확장하는 생성형 비전: 파라미터 효율 적응과 고해상도 확산 모델

Training-free Generative Vision: Parameter-efficient Adaptation and High-resolution Diffusion

연구 분야 상세보기

학습 없이 확장하는 생성형 비전: 파라미터 효율 적응과 고해상도 확산 모델

Training-free Generative Vision: Parameter-efficient Adaptation and High-resolution Diffusion

연구 분야 상세보기

일반화 가능한 뉴럴 렌더링: 3D Gaussian Splatting과 뉴럴 필드의 재구성·고해상도화·압축

Generalizable Neural Rendering: 3D Gaussian Splatting and Neural Fields for Reconstruction and Compr

연구 분야 상세보기

오픈보카블 3D 인식과 시공간 경로 추정: 의미 제약 기반 3D 디텍션 및 궤적 정련

Open-vocabulary 3D Perception and Spatiotemporal Trajectory Refinement

연구 분야 상세보기

연구 성과 추이

표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

5개년 연도별 논문 게재 수

49총합

5개년 연도별 피인용 수

458총합

주요 논문

논문 전체보기

article

인용수 0

2026

Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection

Youbin Kim, Jinho Park, Hogun Park, Eunbyung Park

ArXiv.org

오픈 보캐뷸러리 3D 객체 탐지는 고정된 학습 분류 체계(training taxonomy) 밖에 있는 객체를 위치 추정하고 인식하는 것을 목표로 한다. 다중 뷰 RGB 설정에서 최근 접근법들은 흔히 기하 기반 인스턴스 구성(instance construction)과 의미 라벨링(semantic labeling)을 분리하여, 분류 비특정(class-agnostic) 조각 조각(fragment)을 생성한 뒤 사후적으로(open-vocabulary) 범주를 할당한다. 이러한 유연한 분리는, 병합(merging) 과정에서 의미적 제약이 부재한 상태에서 인스턴스 구성을 주로 기하적 일관성에 의해 좌우한다. 기하적 증거가 뷰 의존적이고 불완전할 때, 기하만에 기반한 병합은 서로 다른 객체 간의 잘못된 비가역적 연관(association error)으로 이어질 수 있으며, 예컨대 서로 다른 객체를 과도하게 병합(over-merging)하거나 단일 인스턴스를 분절(fragmentation)하는 문제가 발생한다. 본 연구에서는 인스턴스 구성 과정에 의미적 제약을 직접 통합하는 다중 뷰 오픈 보캐뷸러리 3D 탐지 프레임워크인 Group3D를 제안한다. Group3D는 멀티모달 대규모 언어 모델(multimodal large language model, MLLM)에서 유도한 장면 적응형(scene-adaptive) 보캐뷸러리를 유지하고, 이를 그럴듯한 교차 뷰 범주 동치성(cross-view category equivalence)을 인코딩하는 의미 호환성 그룹(semantic compatibility groups)으로 구성한다. 이러한 그룹은 병합 시점 제약(merge-time constraints)으로 작동한다. 즉, 3D 조각은 의미 호환성과 기하적 일관성 모두를 만족할 때만 연관된다. 의미에 의해 게이트된 병합은 기하 중심의 과도 병합을 완화하면서, 다중 뷰 범주 변동성도 수용한다. Group3D는 자세(pose)를 알 수 있는 설정과 자세가 없는 설정 모두를 지원하며, RGB 관측에만 의존한다. ScanNet 및 ARKitScenes에 대한 실험 결과, Group3D는 다중 뷰 오픈 보캐뷸러리 3D 탐지에서 최첨단 성능을 달성하는 동시에, 제로샷(zero-shot) 시나리오에서도 강력한 일반화 성능을 보인다. 프로젝트 페이지는 https://ubin108.github.io/Group3D/ 에서 확인할 수 있다.

http://arxiv.org/abs/2603.21944

Vocabulary

ENCODE

RGB color model

Object detection

Semantic mapping

Pattern recognition (psychology)

article

인용수 5

2025

DiffuseHigh: Training-Free Progressive High-Resolution Image Synthesis Through Structure Guidance

Younghyun Kim, Geunmin Hwang, Junyu Zhang, Eunbyung Park

Proceedings of the AAAI Conference on Artificial Intelligence

대규모 생성 모델(예: 텍스트-투-이미지 확산 모델)은 창의적이고 고품질의 이미지 생성을 통해 다양한 분야에서 큰 주목을 받아왔다. 그럼에도 불구하고 기존의 대규모 확산 모델은 최대 1K 해상도의 이미지만 생성할 수 있어, 오늘날의 현대적 상업 응용에서 요구하는 수준에는 크게 미치지 못한다. 더 높은 해상도의 이미지를 직접 샘플링하면 흔히 객체 반복, 형태 왜곡과 같은 아티팩트로 인해 결과가 손상된다. 이러한 문제를 해결하려면 통상적으로 더 높은 해상도의 데이터셋에 대해 모델을 학습하거나 미세조정해야 한다. 그러나 이는 대규모 고해상도 이미지를 수집하기 어렵고 막대한 계산 자원이 필요하다는 점에서 매우 도전적이다. 일부 선행 연구에서는 번거로운 학습 과정을 우회하는 대안을 제안했지만, 대체로 설득력 있는 결과를 도출하지 못한다. 본 연구에서는 원래의 능력을 넘어 더 높은 해상도에서 확산 모델의 생성 가능성을 탐구하고, 생성된 저해상도 이미지를 고해상도 이미지 생성에 충분히 활용하도록 하는 새로운 점진적(progressive) 접근법을 제안한다. 또한 파이프라인에 이미지 샤프닝(image sharpening) 연산을 통합하여 이미지 품질을 한층 더 향상시킨다. 우리의 방법은 추가적인 학습 또는 미세조정의 필요성을 없애며, 이로써 계산 비용의 부담을 크게 낮춘다. 대규모 실험과 결과를 통해 방법의 효율성과 효과를 검증하였다.

https://doi.org/10.1609/aaai.v39i4.32456

Training (meteorology)

Computer science

Computer vision

Artificial intelligence

Geography

article

인용수 22

2024

Hydra: Multi-head low-rank adaptation for parameter efficient fine-tuning

Sanghyeon Kim, Hyun-Mo Yang, Yunghyun Kim, Youngjoon Hong, Eunbyung Park

IF 6.3 (2024)

Neural Networks

https://doi.org/10.1016/j.neunet.2024.106414

Computer science

Lernaean Hydra

Inference

Adaptation (eye)

Generalization

Fine-tuning

Artificial intelligence

Machine learning

Theoretical computer science

최신 정부 과제

과제 전체보기

2024년 3월-2025년 12월

|726,740,000원

생성형 AI 3D 콘텐츠 저작권 보호를 위한 뉴럴 워터마크 기술 연구

VR/AR 기술과 인공지능의 발전으로 생성형 AI에 대한 수요와 사용성이 증가하고 3D 모델 및 캐릭터 콘텐츠에 대한 창작물이 늘어남에 따라 저작권 침해 문제를 방지 및 해결하고자 AI 기반의 3D 캐릭터에 대한 저작권 보호 원천기술 개발을 목표로 함. 본 과제에서는 2D 콘텐츠를 3D 콘텐츠로 변환하는 다중 시점 변환 뉴럴 렌더러를 기반으로 하는 생성형 ...

뉴럴 워터마크

뉴럴 랜더링

생성모델

워터마크

저작권

2024년 3월-2025년 12월

|563,700,000원

생성형 AI 3D 콘텐츠 저작권 보호를 위한 뉴럴 워터마크 기술 연구

뉴럴 워터마크

뉴럴 랜더링

생성모델

워터마크

저작권

주관|

2023년 5월-2024년 5월

|68,332,000원

빠른 학습이 가능한 고성능 및 고효율 뉴럴 필드

1. 주파수 도메인 표현 방법 1-1. 다양한 주파수 도메인 방법론 ？ 푸리에 변환, 코사인 변환, 그리고 사전 연구에서 검증한 웨이블릿 변환을 사용한 구조를 설계 및 실험을 통하여 목적에 따라 최적의 주파수 도메인 방법론 개발. 1-2. 대수적인 분해 방법론 ？ 다양한 대수적인 분해 방법론 적용 및 새로운 분해 방법 연구 개발. 1-3. 비정형 주파수 도메인 방법론 ？ 기존의 주파수 도메인 변환은 정형화된 데이터 구조에서만 사용이 가능. 파라메터 효율성을 최대화하기 위한 비정형 주파수 도메인에서의 변환 방법 적용 및 연구 개발. 1-4. 데이터 구조 및 뉴럴 네트워크 통합 방법론 ？ 주파수 도메인 표현 방법과 MLP 통합 방법론 연구 개발. 2. 포인트 기반의 표현 방법 2-1. 효율성 극대화를 위한 자동 적응형 포인트 기반 표현 방법 ？ 신호의 복잡도에 따라 자동으로 포인트의 수를 할당하는 방법론 연구 개발. 2-2. 하이브리드 데이터 구조 ？ 기존의 정형 grid 데이터 구조와 포인트 구조는 서로 상호 보완적인 속성을 지니고 있으며, 두 구조를 서로 결합하여 고효율 달성을 위한 뉴럴 필드 구조를 연구 개발. 2-3. 적응형 메시 구조 방법론 ？ 적응형 메시 구조는 기존의 수치해석 방법에서 빈번히 사용하는 방법론이다. 다양한 적응형 메시 구조를 뉴럴 필드에 적용 및 개선하여 고성능 및 고효율을 달성함. 3. 뉴럴 필드 구조 연구 3-1. 고차원 입력 도메인에서의 분리된 뉴럴 필드 구조 ？ 물리현상 시뮬레이션, 4차원의 3D 비디오, 그리고 멀티모달 응용에서와 같은 고차원 입력 도메인에서의 학습 속도 향상을 위한 입력 차원 분리 뉴럴 필드 구조. 3-2. 시간을 동반한 데이터 표현을 위한 프레임 단위 뉴럴 필드 구조 ？ 일반 비디오 또한 3D 비디오 등 시간 축정보가 포함된 신호를 표현하기 위한 특화된 뉴럴 필드 구조 연구 개발.

뉴럴 필드

인공지능

컴퓨터 비전

컴퓨터 그래픽스

최신 특허

특허 전체보기

상태	출원연도	과제명	출원번호
공개	2023	이상 탐지 방법 및 장치, 그 학습 방법	1020230195695
등록	2023	딥러닝 모델을 이용하여 비디오의 프레임을 표현하는 방법 및 장치	1020230191675
거절	2023	신경복사장 모델 기반 2차원 이미지 생성 방법 및 장치	1020230183124

전체 특허

이상 탐지 방법 및 장치, 그 학습 방법

상태

공개

출원연도

2023

출원번호

1020230195695

상세 정보 바로가기

딥러닝 모델을 이용하여 비디오의 프레임을 표현하는 방법 및 장치

상태

등록

출원연도

2023

출원번호

1020230191675

상세 정보 바로가기

신경복사장 모델 기반 2차원 이미지 생성 방법 및 장치

상태

거절

출원연도

2023

출원번호

1020230183124

상세 정보 바로가기

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)