논문 | 양밍쉬안 교수 연구실 | 연세대학교 인공지능학과

|양밍쉬안 교수 연구실

홈

연구 영역

기본 정보

논문·특허

구성원

논문

연구 성과 추이

표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

주요 논문

*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.

Article

인용수 31

2023

Learning Hierarchical Modular Networks for Video Captioning

Guorong Li, Hanhua Ye, Yuankai Qi, Shuhui Wang, Laiyun Qing, Qingming Huang, Ming–Hsuan Yang

IF 20.8 (2023)

IEEE Transactions on Pattern Analysis and Machine Intelligence

비디오 캡셔닝(video captioning)은 주어진 비디오 클립에 대해 자연어 설명을 생성하는 것을 목표로 한다. 기존 방법들은 주로 예측 캡션과 정답 텍스트 간의 단어 단위 비교를 통한 종단 간 표현 학습에 초점을 맞춘다. 상당한 진전에도 불구하고, 기존의 지도학습(supervised) 접근은 시각적 실체와 언어적 실체 간의 의미 정렬(semantic alignment)을 소홀히 하여 생성된 캡션에 부정적 영향을 줄 수 있다. 본 연구에서는 캡션을 생성하기 전에 네 가지 세분성(실체, 동사, 술어, 문장)에서 비디오 표현과 언어 의미를 연결하기 위해 계층적 모듈형 네트워크를 제안한다. 각 수준은 대응하는 의미를 비디오 표현에 내재화하기 위해 하나의 모듈로 구현된다. 또한 우리는 장면 그래프(scene graph)를 기반으로 한 캡션 강화학습(reinforcement learning) 모듈을 제시하여 문장 유사도를 더 잘 측정한다. 광범위한 실험 결과, 제안 방법은 microsoft research video description corpus(MSVD), MSR-video to text(MSR-VTT), video-and-TEXt(VATEX)를 포함한 세 개의 널리 사용되는 벤치마크 데이터셋에서 최신(state-of-the-art) 모델들과 비교하여 유리한 성능을 보인다.

https://doi.org/10.1109/tpami.2023.3327677

Closed captioning

Computer science

Modular design

Artificial intelligence

Natural language processing

Machine learning

Image (mathematics)

Programming language

Article

인용수 43

2023

GAN-Based Facial Attribute Manipulation

Yunfan Liu, Qi Li, Qiyao Deng, Zhenan Sun, Ming–Hsuan Yang

IF 20.8 (2023)

IEEE Transactions on Pattern Analysis and Machine Intelligence

얼굴 속성 조작(Facial Attribute Manipulation, FAM)은 주어진 얼굴 이미지의 미적 특성을 원하는 속성이 나타나도록 미적으로 수정하는 것을 목표로 하며, 디지털 엔터테인먼트부터 생체인식 포렌식에 이르기까지 폭넓은 실용적 응용이 가능하다는 점에서 상당한 주목을 받아 왔다. 지난 10년 동안 생성적 적대 신경망(Generative Adversarial Networks, GANs)이 사실적인 이미지를 합성하는 데 있어 괄목할 만한 성과를 보이면서, 다양한 문제 설정 방식과 유도 정보 표현을 통해 FAM을 해결하기 위한 수많은 GAN 기반 모델들이 제안되었다. 본 논문은 주요 동기와 기술적 세부 사항을 요약하는 데 초점을 두어 GAN 기반 FAM 방법에 대한 포괄적인 설문 조사를 제시한다. 본 설문 조사의 주요 내용은 다음을 포함한다: (i) FAM과 관련된 연구 배경 및 기본 개념에 대한 소개, (ii) 세 가지 주요 범주에 걸친 GAN 기반 FAM 방법들에 대한 체계적 문헌 고찰, (iii) FAM 방법의 중요한 성질, 해결되지 않은 쟁점, 그리고 향후 연구 방향에 대한 심층적 논의. 본 설문 조사는 이 분야에 새로 진입한 연구자들에게 좋은 출발점을 제공할 뿐 아니라, 비전(vision) 커뮤니티를 위한 참고 문헌으로도 기능한다.

https://doi.org/10.1109/tpami.2023.3298868

Computer science

Focus (optics)

Field (mathematics)

Biometrics

Face (sociological concept)

Open research

Artificial intelligence

Point (geometry)

Principal (computer security)

Data science

Review

인용수 1,332

2023

Diffusion Models: A Comprehensive Survey of Methods and Applications

L. Yang, Zhilong Zhang, Yang Song, Shenda Hong, Runsheng Xu, Yue Zhao, Wentao Zhang, Bin Cui, Ming–Hsuan Yang

IF 23.8 (2023)

ACM Computing Surveys

확산 모델은 이미지 합성, 비디오 생성, 분자 설계 등 여러 응용 분야에서 기록적인 성능을 보이며, 강력한 새로운 계열의 딥 생성 모델로 부상하였다. 본 설문에서는 확산 모델에 관한 빠르게 확장되는 연구 성과를 개관하고, 연구를 세 가지 핵심 영역—효율적인 샘플링, 개선된 우도(likelihood) 추정, 그리고 특수한 구조를 가진 데이터의 처리—로 분류한다. 또한 향상된 결과를 위해 확산 모델을 다른 생성 모델과 결합할 가능성에 대해 논의한다. 더 나아가 본 설문은 컴퓨터 비전, 자연어 처리, 시계열 데이터 모델링에서부터 다른 과학 분야에 이르기까지, 다양한 분야에서의 확산 모델의 폭넓은 응용을 검토한다. 본 설문은 확산 모델의 현 상태를 맥락화하여 심층적으로 조망하고, 집중해야 할 핵심 영역을 규명하며, 추가 탐색이 가능한 잠재적 영역을 제시하는 것을 목표로 한다. Github: https://github.com/YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy

https://doi.org/10.1145/3626235

Computer science

Data science

Generative grammar

Key (lock)

Focus (optics)

Generative model

Diffusion

Artificial intelligence

Machine learning

Article

인용수 9

2022

Shaping Deep Feature Space Towards Gaussian Mixture for Visual Classification

Weitao Wan, Yu Cheng, Jiansheng Chen, Tong Wu, Yuanyi Zhong, Ming–Hsuan Yang

IF 23.6 (2022)

IEEE Transactions on Pattern Analysis and Machine Intelligence

소프트맥스 교차 엔트로피 손실함수는 다양한 과제에 대한 딥 모델을 학습하기 위해 널리 사용되어 왔다. 본 연구에서는 시각 분류를 위한 딥 신경망에서 사용할 가우시안 혼합(GM) 손실함수를 제안한다. 소프트맥스 교차 엔트로피 손실과 달리, 본 방법은 딥 특징 공간을 가우시안 혼합 분포(Gaussian Mixture)로 명시적으로 형성한다. 분류 마진(classification margin)과 가능도 정규화(likelihood regularization)를 통해 GM 손실은 높은 분류 성능과 특징 분포의 정확한 모델링을 모두 가능하게 한다. 또한 GM 손실은 청정(clean) 예시와 적대(adversarial) 예시의 특징 분포 간 불일치(discrepancy)를 기반으로 적대적 예시를 구별하는 데 용이하게 사용할 수 있다. 더 나아가, 이론적 분석 결과 GM 손실을 사용하면 대칭적 특징 공간(symmetric feature space)을 달성할 수 있으며, 이는 모델이 적대적 공격에 대해 강건하게 동작하도록 한다. 제안된 모델은 추가적인 학습 파라미터를 도입하지 않으면서도 쉽고 효율적으로 구현할 수 있다. 광범위한 평가는 GM 손실을 사용하는 방법이 영상 분류, 얼굴 인식, 탐지 및 다양한 공격으로 생성된 적대적 예시의 인식에서도 유리한 성능을 보인다는 점을 입증한다.

https://doi.org/10.1109/tpami.2022.3166879

Softmax function

Artificial intelligence

Pattern recognition (psychology)

Feature vector

Computer science

Gaussian

Contextual image classification

Feature (linguistics)

Feature extraction

Margin (machine learning)

Preprint

인용수 17

2022

GAN Inversion: A Survey

Weihao Xia, Yulun Zhang, Yujiu Yang, Jing‐Hao Xue, Bolei Zhou, Ming–Hsuan Yang

IF 23.6 (2022)

IEEE Transactions on Pattern Analysis and Machine Intelligence

GAN 역변환(GAN inversion)은 주어진 이미지를 사전 학습된 GAN 모델의 잠재 공간(latent space)으로 다시 역변환하여, 생성기가 역변환된 코드에서 이미지를 충실하게 재구성할 수 있도록 하는 것을 목표로 한다. 실재(real)와 가상(fake) 이미지 도메인을 연결하기 위한 부상하는 기법으로서, GAN 역변환은 StyleGAN 및 BigGAN과 같은 사전 학습된 GAN 모델이 실제 이미지 편집(real image editing) 응용에 활용될 수 있도록 하는 데 필수적인 역할을 한다. 또한 GAN 역변환은 GAN의 잠재 공간을 해석하고, 현실적인 이미지를 어떻게 생성할 수 있는지를 고찰한다. 본 논문에서는 이미지 복원(image restoration)과 이미지 조작(image manipulation)을 위한 응용을 중심으로, 대표적인 알고리즘들과 함께 GAN 역변환에 대한 설문 조사를 제공한다. 아울러 향후 연구를 위한 동향과 도전 과제에 대해 논의한다. GAN 역변환 방법, 데이터셋 및 기타 관련 정보를 선별하여 정리한 목록은 https://github.com/weihaox/awesome-gan-inversion 에서 확인할 수 있다.

https://doi.org/10.1109/tpami.2022.3181070

Inversion (geology)

Computer science

Artificial intelligence

Parameter space

Computer vision

Geology

Mathematics

Geometry

Seismology

전체 논문

961

Article

인용수 31

2023

Learning Hierarchical Modular Networks for Video Captioning

Guorong Li, Hanhua Ye, Yuankai Qi, Shuhui Wang, Laiyun Qing, Qingming Huang, Ming–Hsuan Yang

IF 20.8 (2023)

IEEE Transactions on Pattern Analysis and Machine Intelligence

https://doi.org/10.1109/tpami.2023.3327677

Closed captioning

Computer science

Modular design

Artificial intelligence

Natural language processing

Machine learning

Image (mathematics)

Programming language

Article

인용수 43

2023

GAN-Based Facial Attribute Manipulation

Yunfan Liu, Qi Li, Qiyao Deng, Zhenan Sun, Ming–Hsuan Yang

IF 20.8 (2023)

IEEE Transactions on Pattern Analysis and Machine Intelligence

https://doi.org/10.1109/tpami.2023.3298868

Computer science

Focus (optics)

Field (mathematics)

Biometrics

Face (sociological concept)

Open research

Artificial intelligence

Point (geometry)

Principal (computer security)

Data science

Review

인용수 1,332

2023

Diffusion Models: A Comprehensive Survey of Methods and Applications

L. Yang, Zhilong Zhang, Yang Song, Shenda Hong, Runsheng Xu, Yue Zhao, Wentao Zhang, Bin Cui, Ming–Hsuan Yang

IF 23.8 (2023)

ACM Computing Surveys

https://doi.org/10.1145/3626235

Computer science

Data science

Generative grammar

Key (lock)

Focus (optics)

Generative model

Diffusion

Artificial intelligence

Machine learning

Article

인용수 9

2022

Shaping Deep Feature Space Towards Gaussian Mixture for Visual Classification

Weitao Wan, Yu Cheng, Jiansheng Chen, Tong Wu, Yuanyi Zhong, Ming–Hsuan Yang

IF 23.6 (2022)

IEEE Transactions on Pattern Analysis and Machine Intelligence

https://doi.org/10.1109/tpami.2022.3166879

Softmax function

Artificial intelligence

Pattern recognition (psychology)

Feature vector

Computer science

Gaussian

Contextual image classification

Feature (linguistics)

Feature extraction

Margin (machine learning)

Preprint

인용수 17

2022

GAN Inversion: A Survey

Weihao Xia, Yulun Zhang, Yujiu Yang, Jing‐Hao Xue, Bolei Zhou, Ming–Hsuan Yang

IF 23.6 (2022)

IEEE Transactions on Pattern Analysis and Machine Intelligence

https://doi.org/10.1109/tpami.2022.3181070

Inversion (geology)

Computer science

Artificial intelligence

Parameter space

Computer vision

Geology

Mathematics

Geometry

Seismology

Article

인용수 0

2026

Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey

Jindong Li, Yali Fu, Jiahong Liu, Linxiao Cao, Wei Ji, Menglin Yang, Irwin King, Ming-Hsuan Yang

IF 18.6 (2026)

IEEE Transactions on Pattern Analysis and Machine Intelligence

대규모 언어 모델(LLM)의 급속한 발전은 연속적인 멀티모달 데이터를 언어 기반 처리에 적합한 이산 표현으로 변환하기 위한 효과적인 메커니즘에 대한 필요성을 한층 강화하였다. 벡터 양자화(Vector Quantization, VQ)를 핵심 접근으로 하는 이산 토큰화는 계산 효율성과 LLM 아키텍처와의 호환성을 모두 제공한다. 그럼에도 불구하고, LLM 기반 시스템의 맥락에서 VQ 기법을 체계적으로 고찰하는 포괄적인 설문 연구가 부족한 실정이다. 본 연구는 이러한 공백을 메우기 위해 LLM을 대상으로 설계된 이산 토큰화 방법에 대한 최초의 구조화된 분류 체계(taxonomy)와 분석을 제시한다. 우리는 고전적 패러다임과 현대적 패러다임을 아우르는 대표적인 VQ 변형 8가지를 범주화하고, 이들의 알고리즘적 원리, 훈련 동역학, 그리고 LLM 파이프라인과의 통합에서 발생하는 과제를 분석한다. 알고리즘 수준의 조사에 더해, LLM이 없는 고전적 적용, LLM 기반 단일 모달 시스템, 그리고 LLM 기반 멀티모달 시스템이라는 관점에서 기존 연구를 논의하며, 양자화 전략이 정렬(alignment), 추론(reasoning), 생성 성능에 어떠한 영향을 미치는지를 조명한다. 또한 코드북 붕괴(codebook collapse), 불안정한 그래디언트 추정(unstable gradient estimation), 그리고 모달리티별 인코딩 제약(modality-specific encoding constraints)과 같은 핵심 과제들을 규명한다. 마지막으로 동적 및 과제 적응형 양자화(dynamic and task-adaptive quantization), 통합 토큰화 프레임워크(unified tokenization frameworks), 그리고 생물학적 영감을 받은 코드북 학습(biologically inspired codebook learning)과 같은 새로운 연구 방향을 논의한다. 본 설문은 전통적인 벡터 양자화와 현대의 LLM 응용을 연결함으로써, 효율적이고 일반화 가능한 멀티모달 시스템의 개발을 위한 기초 참고 자료로서 기능한다. 지속적으로 업데이트되는 버전은 다음 주소에서 제공된다: https://github.com/jindongli-Ai/LLM-Discrete-Tokenization-Survey.

https://doi.org/10.1109/tpami.2026.3676982

Codebook

Vector quantization

Categorization

Lexical analysis

Quantization (signal processing)

Linde–Buzo–Gray algorithm

Classifier (UML)

Key (lock)

Preprint

인용수 0

2025

CompleteMe: Reference-based Human Image Completion

Yu-Ju Tsai, Brian Price, Qing Liu, Luis Figueroa, Daniil Pakhomov, Zhihong Ding, Scott Cohen, Ming–Hsuan Yang

ArXiv.org

인간 이미지 완성(human image completion)에 대한 최근의 방법들은 그럴듯한 신체 형태를 복원할 수는 있지만, 명시적인 참고 이미지(explicit reference images) 없이 특정 의복 패턴이나 독특한 액세서리와 같은 고유한 세부 정보를 종종 보존하지 못한다. 최신 수준의 참고 기반(in reference-based) 인페인팅 접근법 역시 참고 이미지로부터의 미세한(granular) 디테일을 정확히 포착하고 통합하는 데 어려움을 겪는다. 이러한 한계를 해결하기 위해, 우리는 CompleteMe라는 새로운 참고 기반 인간 이미지 완성 프레임워크를 제안한다. CompleteMe는 Region-focused Attention(RFA) Block과 결합된 이중 U-Net 아키텍처를 사용하며, 이는 참고 이미지에서 관련된 영역에 대해 모델의 주의를 명시적으로 유도한다. 이 방식은 미세한 디테일을 효과적으로 포착하고 정확한 의미적 대응(semantic correspondence)을 보장하여, 완성된 이미지의 충실도와 일관성을 크게 향상시킨다. 또한, 참고 기반 인간 이미지 완성 과제를 평가하기 위해 특별히 설계된 도전적인 벤치마크를 도입한다. 광범위한 실험을 통해, 제안한 방법이 기존 기술들에 비해 우수한 시각적 품질과 의미적 일관성을 달성함을 확인하였다. 프로젝트 페이지: https://liagm.github.io/CompleteMe/

http://arxiv.org/abs/2504.20042

Inpainting

Consistency (knowledge bases)

Image (mathematics)

Benchmark (surveying)

Fidelity

A priori and a posteriori

Quality (philosophy)

Human visual system model

Preprint

인용수 0

2025

Generative AI for Autonomous Driving: Frontiers and Opportunities

Yuping Wang, Shuo Xing, Can, Cui, Renjie Li, Hong Hua, Kexin Tian, Zhaobin Mo, Xiangbo Gao, Keshu Wu, Sulong Zhou, Hengxu You, Juntong Peng, Junge Zhang, Zehao Wang, Rui Song, Mingxuan Yan, Walter Zimmer, Xingcheng Zhou, Peiran Li, Zhong-Yi Lu, Chia-Ju Chen, Yue Huang, Ryan A. Rossi, Lichao Sun, Hongkai Yu, Zhiwen Fan, Yang, Frank Hao, Yuhao Kang, Ross Greer, Chenxi Liu, Eun Hak Lee, Xuan Di, Xinyue Ye, Liu Ren, Alois Knoll, Xiaopeng Li, Shuiwang Ji, Masayoshi Tomizuka, Marco Pavone, Tianbao Yang, Jing Du, Ming–Hsuan Yang, Wei Hua, Ziran Wang, Yang Zhou, Jiachen Li, Zhengzhong Tu

ArXiv.org

생성형 인공지능(Generative Artificial Intelligence, GenAI)은 콘텐츠 생성, 추론, 계획, 그리고 멀티모달 이해에 있어 전례 없는 역량을 바탕으로 산업을 재구성하는 변혁적 기술의 물결을 이룬다. 이러한 혁신적 동력은 특히 Level 5 자율주행을 추구하는 맥락에서, 공학이 직면한 가장 거대한 과제 중 하나인 신뢰할 수 있는 완전 자율주행의 달성을 향한 지금까지의 가장 유망한 경로를 제공한다. 본 조사는 자율주행 스택 전반에서 나타나는 GenAI의 부상하는 역할에 대해 포괄적이고 비판적인 종합을 제공한다. 우리는 먼저 VAEs, GANs, Diffusion Models, 그리고 Large Language Models(LLMs)를 포함하는 현대 생성형 모델링의 원리와 상충관계를 정리한다. 이어서 이미지, LiDAR, 궤적, 점유(occupancy), 비디오 생성뿐 아니라 LLM이 안내하는 추론 및 의사결정에서의 최전선 응용을 매핑한다. 또한 합성 데이터 워크플로, 엔드투엔드 주행(end-to-end driving) 전략, 고정밀 디지털 트윈(high-fidelity digital twin) 시스템, 스마트 교통 네트워크, 그리고 구현형(embodied) AI로의 도메인 간 전이(cross-domain transfer)와 같은 실용적 응용을 범주화한다. 희귀 사례에 대한 포괄적 일반화, 평가 및 안전 점검, 예산이 제한된 구현, 규제 준수, 윤리적 우려, 환경적 영향과 같은 핵심 장애물과 가능성을 규명하는 한편, 이론적 보장, 신뢰(trust) 지표, 수송(transport) 통합, 그리고 사회기술적 영향(socio-technical influence)에 걸친 연구 계획을 제안한다. 이러한 맥락들을 통합함으로써, 본 조사는 생성형 AI와 고도 자율 모빌리티의 융합을 탐색하는 연구자, 엔지니어, 정책입안자들을 위한 선도적 참고 자료를 제공한다. 인용된 문헌을 지속적으로 관리하는 저장소는 https://github.com/taco-group/GenAI4AD 에서 이용할 수 있다.

http://arxiv.org/abs/2505.08854

Transformative learning

Generative grammar

Data-driven

Categorization

Key (lock)

Affordance

Generative model

Preprint

인용수 0

2025

DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency

Mingyao Qi, Pengfei Zhu, Xiangtai Li, Xiaoyang Bi, Lu Qi, Huadóng Ma, Ming–Hsuan Yang

ArXiv.org

단일 라벨 예시가 주어졌을 때, 맥락 내 세그멘테이션(in-context segmentation)은 해당하는 객체를 분할하는 것을 목표로 한다. 이러한 설정은 소수 샷 학습(few-shot learning)에서의 원샷 세그멘테이션(one-shot segmentation)으로 알려져 있으며, 분할 모델의 일반화 능력을 탐구하는 데 목적이 있고, 장면 이해(scene understanding) 및 이미지/비디오 편집(image/video editing)을 포함한 다양한 비전 과제에 적용되어 왔다. 최근 Segment Anything 모델(SAM) 계열이 대화형(interactive) 세그멘테이션에서 최첨단 성과를 달성했음에도 불구하고, 이러한 접근법은 맥락 내 세그멘테이션에 직접 적용되기 어렵다. 본 연구에서는 프롬프트 튜닝(prompt-tuning) 기반의 Dual Consistency SAM (DC-SAM) 방법을 제안하여, 이미지와 비디오 모두에 대한 맥락 내 세그멘테이션을 위해 SAM과 SAM2를 적응시킨다. 핵심 아이디어는 고품질의 시각적 프롬프트를 제공함으로써 세그멘테이션을 위한 SAM의 프롬프트 인코더(prompt encoder)에서의 특징을 향상시키는 것이다. 마스크를 사전 생성할 때, 프롬프트 인코더에 더 잘 정렬되도록 SAM의 특징을 결합(fuse)한다. 다음으로, 결합된 특징과 초기 시각적 프롬프트에 대해 순환 일관성(cycle-consistent)을 갖는 교차 주의(cross-attention)를 설계한다. 이어서, 프롬프트 인코더에서 판별적인 양성 및 음성 프롬프트를 사용하여 이중 분기(dual-branch) 설계를 제공한다. 또한, 제안된 이중 일관성 방법을 마스크 튜브(mask tube)에 적용하기 위해 간단한 마스크-튜브 학습 전략을 설계한다. 제안된 DC-SAM은 주로 이미지용으로 설계되었지만, SAM2의 지원을 통해 비디오 도메인에도 매끄럽게 확장할 수 있다. 비디오 도메인에서의 맥락 내 세그멘테이션이 부재하므로, 우리는 기존 비디오 세그멘테이션 데이터셋을 바탕으로 수작업으로 선별하고 최초의 벤치마크를 구축하였으며, 이를 In-Context Video Object Segmentation (IC-VOS)라고 명명하여 모델의 맥락 내 능력을 보다 잘 평가할 수 있도록 한다. 광범위한 실험 결과, 본 방법은 COCO-20i에서 55.5(+1.4) mIoU, PASCAL-5i에서 73.0(+1.1) mIoU, 제안된 IC-VOS 벤치마크에서 J&F 71.52 점을 달성함을 보여준다. 소스 코드와 벤치마크는 https://github.com/zaplm/DC-SAM 에서 제공된다.

http://arxiv.org/abs/2504.12080

Segmentation

Discriminative model

Consistency (knowledge bases)

Scale-space segmentation

Image segmentation

Encoder

Benchmark (surveying)

Dual (grammatical number)

Article

인용수 0

2025

Move-in-2D: 2D-Conditioned Human Motion Generation

Hsin–Ping Huang, Yang Zhou, Jui-Hsien Wang, Difan Liu, Feng Liu, Ming–Hsuan Yang, Zhan Xu

사람의 실제적인 비디오를 생성하는 일은 여전히 어려운 과제로 남아 있으며, 현재 가장 효과적인 방법들은 인간의 모션 시퀀스를 제어 신호로 활용하는 데 의존하고 있다. 기존 접근법은 종종 다른 비디오에서 추출한 기존 모션을 사용하여 특정 모션 유형과 전역적 장면 정합에 대한 제약을 초래한다. 본 연구에서는 장면 이미지에 조건을 부여하여 인간의 모션 시퀀스를 생성하는 새로운 접근인 Move-in-2D를 제안한다. 이 방법은 다양한 모션을 가능하게 하면서도 서로 다른 장면에 적응할 수 있도록 한다. 우리의 접근은 확산 모델을 활용하며, 장면 이미지와 텍스트 프롬프트를 모두 입력으로 받아 해당 장면에 맞춘 모션 시퀀스를 생성한다. 이 모델을 학습하기 위해 우리는 단일 인간의 활동을 담은 대규모 비디오 데이터셋을 수집하고, 각 비디오에 대응하는 인간 모션을 목표 출력으로 주석 처리한다. 실험 결과, 본 방법은 투영(projection) 이후 장면 이미지와 정합되는 인간 모션을 효과적으로 예측함을 보여준다. 또한 생성된 모션 시퀀스가 비디오 합성 과제에서 인간 모션의 품질을 향상시킨다는 점을 확인하였다.

https://doi.org/10.1109/cvpr52734.2025.02120

Motion (physics)

Computer science

Human motion

Artificial intelligence

주요 논문

*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.

Article

인용수 31

2023

Learning Hierarchical Modular Networks for Video Captioning

Guorong Li, Hanhua Ye, Yuankai Qi, Shuhui Wang, Laiyun Qing, Qingming Huang, Ming–Hsuan Yang

IF 20.8 (2023)

IEEE Transactions on Pattern Analysis and Machine Intelligence

https://doi.org/10.1109/tpami.2023.3327677

Closed captioning

Computer science

Modular design

Artificial intelligence

Natural language processing

Machine learning

Image (mathematics)

Programming language

Article

인용수 43

2023

GAN-Based Facial Attribute Manipulation

Yunfan Liu, Qi Li, Qiyao Deng, Zhenan Sun, Ming–Hsuan Yang

IF 20.8 (2023)

IEEE Transactions on Pattern Analysis and Machine Intelligence

https://doi.org/10.1109/tpami.2023.3298868

Computer science

Focus (optics)

Field (mathematics)

Biometrics

Face (sociological concept)

Open research

Artificial intelligence

Point (geometry)

Principal (computer security)

Data science

Review

인용수 1,332

2023

Diffusion Models: A Comprehensive Survey of Methods and Applications

L. Yang, Zhilong Zhang, Yang Song, Shenda Hong, Runsheng Xu, Yue Zhao, Wentao Zhang, Bin Cui, Ming–Hsuan Yang

IF 23.8 (2023)

ACM Computing Surveys

https://doi.org/10.1145/3626235

Computer science

Data science

Generative grammar

Key (lock)

Focus (optics)

Generative model

Diffusion

Artificial intelligence

Machine learning

Article

인용수 9

2022

Shaping Deep Feature Space Towards Gaussian Mixture for Visual Classification

Weitao Wan, Yu Cheng, Jiansheng Chen, Tong Wu, Yuanyi Zhong, Ming–Hsuan Yang

IF 23.6 (2022)

IEEE Transactions on Pattern Analysis and Machine Intelligence

https://doi.org/10.1109/tpami.2022.3166879

Softmax function

Artificial intelligence

Pattern recognition (psychology)

Feature vector

Computer science

Gaussian

Contextual image classification

Feature (linguistics)

Feature extraction

Margin (machine learning)

Preprint

인용수 17

2022

GAN Inversion: A Survey

Weihao Xia, Yulun Zhang, Yujiu Yang, Jing‐Hao Xue, Bolei Zhou, Ming–Hsuan Yang

IF 23.6 (2022)

IEEE Transactions on Pattern Analysis and Machine Intelligence

https://doi.org/10.1109/tpami.2022.3181070

Inversion (geology)

Computer science

Artificial intelligence

Parameter space

Computer vision

Geology

Mathematics

Geometry

Seismology

전체 논문

961

Article

인용수 31

2023

Learning Hierarchical Modular Networks for Video Captioning

Guorong Li, Hanhua Ye, Yuankai Qi, Shuhui Wang, Laiyun Qing, Qingming Huang, Ming–Hsuan Yang

IF 20.8 (2023)

IEEE Transactions on Pattern Analysis and Machine Intelligence

https://doi.org/10.1109/tpami.2023.3327677

Closed captioning

Computer science

Modular design

Artificial intelligence

Natural language processing

Machine learning

Image (mathematics)

Programming language

Article

인용수 43

2023

GAN-Based Facial Attribute Manipulation

Yunfan Liu, Qi Li, Qiyao Deng, Zhenan Sun, Ming–Hsuan Yang

IF 20.8 (2023)

IEEE Transactions on Pattern Analysis and Machine Intelligence

https://doi.org/10.1109/tpami.2023.3298868

Computer science

Focus (optics)

Field (mathematics)

Biometrics

Face (sociological concept)

Open research

Artificial intelligence

Point (geometry)

Principal (computer security)

Data science

Review

인용수 1,332

2023

Diffusion Models: A Comprehensive Survey of Methods and Applications

L. Yang, Zhilong Zhang, Yang Song, Shenda Hong, Runsheng Xu, Yue Zhao, Wentao Zhang, Bin Cui, Ming–Hsuan Yang

IF 23.8 (2023)

ACM Computing Surveys

https://doi.org/10.1145/3626235

Computer science

Data science

Generative grammar

Key (lock)

Focus (optics)

Generative model

Diffusion

Artificial intelligence

Machine learning

Article

인용수 9

2022

Shaping Deep Feature Space Towards Gaussian Mixture for Visual Classification

Weitao Wan, Yu Cheng, Jiansheng Chen, Tong Wu, Yuanyi Zhong, Ming–Hsuan Yang

IF 23.6 (2022)

IEEE Transactions on Pattern Analysis and Machine Intelligence

https://doi.org/10.1109/tpami.2022.3166879

Softmax function

Artificial intelligence

Pattern recognition (psychology)

Feature vector

Computer science

Gaussian

Contextual image classification

Feature (linguistics)

Feature extraction

Margin (machine learning)

Preprint

인용수 17

2022

GAN Inversion: A Survey

Weihao Xia, Yulun Zhang, Yujiu Yang, Jing‐Hao Xue, Bolei Zhou, Ming–Hsuan Yang

IF 23.6 (2022)

IEEE Transactions on Pattern Analysis and Machine Intelligence

https://doi.org/10.1109/tpami.2022.3181070

Inversion (geology)

Computer science

Artificial intelligence

Parameter space

Computer vision

Geology

Mathematics

Geometry

Seismology

Article

인용수 0

2026

Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey

Jindong Li, Yali Fu, Jiahong Liu, Linxiao Cao, Wei Ji, Menglin Yang, Irwin King, Ming-Hsuan Yang

IF 18.6 (2026)

IEEE Transactions on Pattern Analysis and Machine Intelligence

https://doi.org/10.1109/tpami.2026.3676982

Codebook

Vector quantization

Categorization

Lexical analysis

Quantization (signal processing)

Linde–Buzo–Gray algorithm

Classifier (UML)

Key (lock)

Preprint

인용수 0

2025

CompleteMe: Reference-based Human Image Completion

Yu-Ju Tsai, Brian Price, Qing Liu, Luis Figueroa, Daniil Pakhomov, Zhihong Ding, Scott Cohen, Ming–Hsuan Yang

ArXiv.org

http://arxiv.org/abs/2504.20042

Inpainting

Consistency (knowledge bases)

Image (mathematics)

Benchmark (surveying)

Fidelity

A priori and a posteriori

Quality (philosophy)

Human visual system model

Preprint

인용수 0

2025

Generative AI for Autonomous Driving: Frontiers and Opportunities

ArXiv.org

http://arxiv.org/abs/2505.08854

Transformative learning

Generative grammar

Data-driven

Categorization

Key (lock)

Affordance

Generative model

Preprint

인용수 0

2025

DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency

Mingyao Qi, Pengfei Zhu, Xiangtai Li, Xiaoyang Bi, Lu Qi, Huadóng Ma, Ming–Hsuan Yang

ArXiv.org

http://arxiv.org/abs/2504.12080

Segmentation

Discriminative model

Consistency (knowledge bases)

Scale-space segmentation

Image segmentation

Encoder

Benchmark (surveying)

Dual (grammatical number)

Article

인용수 0

2025

Move-in-2D: 2D-Conditioned Human Motion Generation

Hsin–Ping Huang, Yang Zhou, Jui-Hsien Wang, Difan Liu, Feng Liu, Ming–Hsuan Yang, Zhan Xu

https://doi.org/10.1109/cvpr52734.2025.02120

Motion (physics)

Computer science

Human motion

Artificial intelligence