RnDCircle Logo
양밍쉬안 연구실
연세대학교 인공지능학과 양밍쉬안 교수
Diffusion Models
GAN inversion
Facial Attribute Manipulation
연구 영역
기본 정보
논문·특허
구성원

양밍쉬안 연구실

연세대학교 인공지능학과 양밍쉬안 교수

양밍쉬안 연구실은 딥러닝 기반 컴퓨터비전에서 생성 모델과 시각 복원, 시각-언어 의미 정렬을 함께 연구합니다. 생성형 모델 측면에서는 diffusion models, GAN inversion, 얼굴 속성 조작, 이미지-to-이미지 변환의 관점에서 방법론을 정리하고 적용 방향을 도출합니다. 비전 복원에서는 비디오의 시간 샤프니스와 비국소 공간-시간 유사도 같은 도메인 지식을 활용해 경량 CNN 디블러링을 수행합니다. 또한 비디오 캡션과 지시 표현 이해에서 대조 특징 학습과 특징 공간 분포 정규화를 결합해 시각과 언어 의미 정합을 강화합니다.

Diffusion ModelsGAN inversionFacial Attribute ManipulationVideo deblurringContrastive representation learning
대표 연구 분야
연구 영역 전체보기
생성형 모델 기반 시각 편집과 이미지 변환 연구 thumbnail
생성형 모델 기반 시각 편집과 이미지 변환 연구
Generative Model–Driven Visual Editing and Image Translation
연구 분야 상세보기
연구 성과 추이
표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.
주요 논문
5
논문 전체보기
1
Article
|
·
인용수 31
·
2023
Learning Hierarchical Modular Networks for Video Captioning
Guorong Li, Hanhua Ye, Yuankai Qi, Shuhui Wang, Laiyun Qing, Qingming Huang, Ming–Hsuan Yang
IF 20.8 (2023)
IEEE Transactions on Pattern Analysis and Machine Intelligence
비디오 캡셔닝(video captioning)은 주어진 비디오 클립에 대해 자연어 설명을 생성하는 것을 목표로 한다. 기존 방법들은 주로 예측 캡션과 정답 텍스트 간의 단어 단위 비교를 통한 종단 간 표현 학습에 초점을 맞춘다. 상당한 진전에도 불구하고, 기존의 지도학습(supervised) 접근은 시각적 실체와 언어적 실체 간의 의미 정렬(semantic alignment)을 소홀히 하여 생성된 캡션에 부정적 영향을 줄 수 있다. 본 연구에서는 캡션을 생성하기 전에 네 가지 세분성(실체, 동사, 술어, 문장)에서 비디오 표현과 언어 의미를 연결하기 위해 계층적 모듈형 네트워크를 제안한다. 각 수준은 대응하는 의미를 비디오 표현에 내재화하기 위해 하나의 모듈로 구현된다. 또한 우리는 장면 그래프(scene graph)를 기반으로 한 캡션 강화학습(reinforcement learning) 모듈을 제시하여 문장 유사도를 더 잘 측정한다. 광범위한 실험 결과, 제안 방법은 microsoft research video description corpus(MSVD), MSR-video to text(MSR-VTT), video-and-TEXt(VATEX)를 포함한 세 개의 널리 사용되는 벤치마크 데이터셋에서 최신(state-of-the-art) 모델들과 비교하여 유리한 성능을 보인다.
https://doi.org/10.1109/tpami.2023.3327677
Closed captioning
Computer science
Modular design
Artificial intelligence
Natural language processing
Machine learning
Image (mathematics)
Programming language
2
Article
|
·
인용수 43
·
2023
GAN-Based Facial Attribute Manipulation
Yunfan Liu, Qi Li, Qiyao Deng, Zhenan Sun, Ming–Hsuan Yang
IF 20.8 (2023)
IEEE Transactions on Pattern Analysis and Machine Intelligence
얼굴 속성 조작(Facial Attribute Manipulation, FAM)은 주어진 얼굴 이미지의 미적 특성을 원하는 속성이 나타나도록 미적으로 수정하는 것을 목표로 하며, 디지털 엔터테인먼트부터 생체인식 포렌식에 이르기까지 폭넓은 실용적 응용이 가능하다는 점에서 상당한 주목을 받아 왔다. 지난 10년 동안 생성적 적대 신경망(Generative Adversarial Networks, GANs)이 사실적인 이미지를 합성하는 데 있어 괄목할 만한 성과를 보이면서, 다양한 문제 설정 방식과 유도 정보 표현을 통해 FAM을 해결하기 위한 수많은 GAN 기반 모델들이 제안되었다. 본 논문은 주요 동기와 기술적 세부 사항을 요약하는 데 초점을 두어 GAN 기반 FAM 방법에 대한 포괄적인 설문 조사를 제시한다. 본 설문 조사의 주요 내용은 다음을 포함한다: (i) FAM과 관련된 연구 배경 및 기본 개념에 대한 소개, (ii) 세 가지 주요 범주에 걸친 GAN 기반 FAM 방법들에 대한 체계적 문헌 고찰, (iii) FAM 방법의 중요한 성질, 해결되지 않은 쟁점, 그리고 향후 연구 방향에 대한 심층적 논의. 본 설문 조사는 이 분야에 새로 진입한 연구자들에게 좋은 출발점을 제공할 뿐 아니라, 비전(vision) 커뮤니티를 위한 참고 문헌으로도 기능한다.
https://doi.org/10.1109/tpami.2023.3298868
Computer science
Focus (optics)
Field (mathematics)
Biometrics
Face (sociological concept)
Open research
Artificial intelligence
Point (geometry)
Principal (computer security)
Data science
3
Review
|
·
인용수 1,332
·
2023
Diffusion Models: A Comprehensive Survey of Methods and Applications
L. Yang, Zhilong Zhang, Yang Song, Shenda Hong, Runsheng Xu, Yue Zhao, Wentao Zhang, Bin Cui, Ming–Hsuan Yang
IF 23.8 (2023)
ACM Computing Surveys
확산 모델은 이미지 합성, 비디오 생성, 분자 설계 등 여러 응용 분야에서 기록적인 성능을 보이며, 강력한 새로운 계열의 딥 생성 모델로 부상하였다. 본 설문에서는 확산 모델에 관한 빠르게 확장되는 연구 성과를 개관하고, 연구를 세 가지 핵심 영역—효율적인 샘플링, 개선된 우도(likelihood) 추정, 그리고 특수한 구조를 가진 데이터의 처리—로 분류한다. 또한 향상된 결과를 위해 확산 모델을 다른 생성 모델과 결합할 가능성에 대해 논의한다. 더 나아가 본 설문은 컴퓨터 비전, 자연어 처리, 시계열 데이터 모델링에서부터 다른 과학 분야에 이르기까지, 다양한 분야에서의 확산 모델의 폭넓은 응용을 검토한다. 본 설문은 확산 모델의 현 상태를 맥락화하여 심층적으로 조망하고, 집중해야 할 핵심 영역을 규명하며, 추가 탐색이 가능한 잠재적 영역을 제시하는 것을 목표로 한다. Github: https://github.com/YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy
https://doi.org/10.1145/3626235
Computer science
Data science
Generative grammar
Key (lock)
Focus (optics)
Generative model
Diffusion
Artificial intelligence
Machine learning