주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
Article
|
·
인용수 31
·
2023Learning Hierarchical Modular Networks for Video Captioning
Guorong Li, Hanhua Ye, Yuankai Qi, Shuhui Wang, Laiyun Qing, Qingming Huang, Ming–Hsuan Yang
IF 20.8 (2023)
IEEE Transactions on Pattern Analysis and Machine Intelligence
비디오 캡셔닝(video captioning)은 주어진 비디오 클립에 대해 자연어 설명을 생성하는 것을 목표로 한다. 기존 방법들은 주로 예측 캡션과 정답 텍스트 간의 단어 단위 비교를 통한 종단 간 표현 학습에 초점을 맞춘다. 상당한 진전에도 불구하고, 기존의 지도학습(supervised) 접근은 시각적 실체와 언어적 실체 간의 의미 정렬(semantic alignment)을 소홀히 하여 생성된 캡션에 부정적 영향을 줄 수 있다. 본 연구에서는 캡션을 생성하기 전에 네 가지 세분성(실체, 동사, 술어, 문장)에서 비디오 표현과 언어 의미를 연결하기 위해 계층적 모듈형 네트워크를 제안한다. 각 수준은 대응하는 의미를 비디오 표현에 내재화하기 위해 하나의 모듈로 구현된다. 또한 우리는 장면 그래프(scene graph)를 기반으로 한 캡션 강화학습(reinforcement learning) 모듈을 제시하여 문장 유사도를 더 잘 측정한다. 광범위한 실험 결과, 제안 방법은 microsoft research video description corpus(MSVD), MSR-video to text(MSR-VTT), video-and-TEXt(VATEX)를 포함한 세 개의 널리 사용되는 벤치마크 데이터셋에서 최신(state-of-the-art) 모델들과 비교하여 유리한 성능을 보인다.
https://doi.org/10.1109/tpami.2023.3327677
Closed captioning
Computer science
Modular design
Artificial intelligence
Natural language processing
Machine learning
Image (mathematics)
Programming language
2
Article
|
·
인용수 43
·
2023GAN-Based Facial Attribute Manipulation
Yunfan Liu, Qi Li, Qiyao Deng, Zhenan Sun, Ming–Hsuan Yang
IF 20.8 (2023)
IEEE Transactions on Pattern Analysis and Machine Intelligence
얼굴 속성 조작(Facial Attribute Manipulation, FAM)은 주어진 얼굴 이미지의 미적 특성을 원하는 속성이 나타나도록 미적으로 수정하는 것을 목표로 하며, 디지털 엔터테인먼트부터 생체인식 포렌식에 이르기까지 폭넓은 실용적 응용이 가능하다는 점에서 상당한 주목을 받아 왔다. 지난 10년 동안 생성적 적대 신경망(Generative Adversarial Networks, GANs)이 사실적인 이미지를 합성하는 데 있어 괄목할 만한 성과를 보이면서, 다양한 문제 설정 방식과 유도 정보 표현을 통해 FAM을 해결하기 위한 수많은 GAN 기반 모델들이 제안되었다. 본 논문은 주요 동기와 기술적 세부 사항을 요약하는 데 초점을 두어 GAN 기반 FAM 방법에 대한 포괄적인 설문 조사를 제시한다. 본 설문 조사의 주요 내용은 다음을 포함한다: (i) FAM과 관련된 연구 배경 및 기본 개념에 대한 소개, (ii) 세 가지 주요 범주에 걸친 GAN 기반 FAM 방법들에 대한 체계적 문헌 고찰, (iii) FAM 방법의 중요한 성질, 해결되지 않은 쟁점, 그리고 향후 연구 방향에 대한 심층적 논의. 본 설문 조사는 이 분야에 새로 진입한 연구자들에게 좋은 출발점을 제공할 뿐 아니라, 비전(vision) 커뮤니티를 위한 참고 문헌으로도 기능한다.
https://doi.org/10.1109/tpami.2023.3298868
Computer science
Focus (optics)
Field (mathematics)
Biometrics
Face (sociological concept)
Open research
Artificial intelligence
Point (geometry)
Principal (computer security)
Data science
3
Review
|
·
인용수 1,332
·
2023Diffusion Models: A Comprehensive Survey of Methods and Applications
L. Yang, Zhilong Zhang, Yang Song, Shenda Hong, Runsheng Xu, Yue Zhao, Wentao Zhang, Bin Cui, Ming–Hsuan Yang
IF 23.8 (2023)
ACM Computing Surveys
확산 모델은 이미지 합성, 비디오 생성, 분자 설계 등 여러 응용 분야에서 기록적인 성능을 보이며, 강력한 새로운 계열의 딥 생성 모델로 부상하였다. 본 설문에서는 확산 모델에 관한 빠르게 확장되는 연구 성과를 개관하고, 연구를 세 가지 핵심 영역—효율적인 샘플링, 개선된 우도(likelihood) 추정, 그리고 특수한 구조를 가진 데이터의 처리—로 분류한다. 또한 향상된 결과를 위해 확산 모델을 다른 생성 모델과 결합할 가능성에 대해 논의한다. 더 나아가 본 설문은 컴퓨터 비전, 자연어 처리, 시계열 데이터 모델링에서부터 다른 과학 분야에 이르기까지, 다양한 분야에서의 확산 모델의 폭넓은 응용을 검토한다. 본 설문은 확산 모델의 현 상태를 맥락화하여 심층적으로 조망하고, 집중해야 할 핵심 영역을 규명하며, 추가 탐색이 가능한 잠재적 영역을 제시하는 것을 목표로 한다. Github: https://github.com/YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy
https://doi.org/10.1145/3626235
Computer science
Data science
Generative grammar
Key (lock)
Focus (optics)
Generative model
Diffusion
Artificial intelligence
Machine learning
4
Article
|
·
인용수 9
·
2022Shaping Deep Feature Space Towards Gaussian Mixture for Visual Classification
Weitao Wan, Yu Cheng, Jiansheng Chen, Tong Wu, Yuanyi Zhong, Ming–Hsuan Yang
IF 23.6 (2022)
IEEE Transactions on Pattern Analysis and Machine Intelligence
소프트맥스 교차 엔트로피 손실함수는 다양한 과제에 대한 딥 모델을 학습하기 위해 널리 사용되어 왔다. 본 연구에서는 시각 분류를 위한 딥 신경망에서 사용할 가우시안 혼합(GM) 손실함수를 제안한다. 소프트맥스 교차 엔트로피 손실과 달리, 본 방법은 딥 특징 공간을 가우시안 혼합 분포(Gaussian Mixture)로 명시적으로 형성한다. 분류 마진(classification margin)과 가능도 정규화(likelihood regularization)를 통해 GM 손실은 높은 분류 성능과 특징 분포의 정확한 모델링을 모두 가능하게 한다. 또한 GM 손실은 청정(clean) 예시와 적대(adversarial) 예시의 특징 분포 간 불일치(discrepancy)를 기반으로 적대적 예시를 구별하는 데 용이하게 사용할 수 있다. 더 나아가, 이론적 분석 결과 GM 손실을 사용하면 대칭적 특징 공간(symmetric feature space)을 달성할 수 있으며, 이는 모델이 적대적 공격에 대해 강건하게 동작하도록 한다. 제안된 모델은 추가적인 학습 파라미터를 도입하지 않으면서도 쉽고 효율적으로 구현할 수 있다. 광범위한 평가는 GM 손실을 사용하는 방법이 영상 분류, 얼굴 인식, 탐지 및 다양한 공격으로 생성된 적대적 예시의 인식에서도 유리한 성능을 보인다는 점을 입증한다.
https://doi.org/10.1109/tpami.2022.3166879
Softmax function
Artificial intelligence
Pattern recognition (psychology)
Feature vector
Computer science
Gaussian
Contextual image classification
Feature (linguistics)
Feature extraction
Margin (machine learning)
5
Preprint
|
인용수 17
·
2022GAN Inversion: A Survey
Weihao Xia, Yulun Zhang, Yujiu Yang, Jing‐Hao Xue, Bolei Zhou, Ming–Hsuan Yang
IF 23.6 (2022)
IEEE Transactions on Pattern Analysis and Machine Intelligence
GAN 역변환(GAN inversion)은 주어진 이미지를 사전 학습된 GAN 모델의 잠재 공간(latent space)으로 다시 역변환하여, 생성기가 역변환된 코드에서 이미지를 충실하게 재구성할 수 있도록 하는 것을 목표로 한다. 실재(real)와 가상(fake) 이미지 도메인을 연결하기 위한 부상하는 기법으로서, GAN 역변환은 StyleGAN 및 BigGAN과 같은 사전 학습된 GAN 모델이 실제 이미지 편집(real image editing) 응용에 활용될 수 있도록 하는 데 필수적인 역할을 한다. 또한 GAN 역변환은 GAN의 잠재 공간을 해석하고, 현실적인 이미지를 어떻게 생성할 수 있는지를 고찰한다. 본 논문에서는 이미지 복원(image restoration)과 이미지 조작(image manipulation)을 위한 응용을 중심으로, 대표적인 알고리즘들과 함께 GAN 역변환에 대한 설문 조사를 제공한다. 아울러 향후 연구를 위한 동향과 도전 과제에 대해 논의한다. GAN 역변환 방법, 데이터셋 및 기타 관련 정보를 선별하여 정리한 목록은 https://github.com/weihaox/awesome-gan-inversion 에서 확인할 수 있다.
https://doi.org/10.1109/tpami.2022.3181070
Inversion (geology)
Computer science
Artificial intelligence
Parameter space
Computer vision
Geology
Mathematics
Geometry
Seismology