주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
Article
|
·
인용수 0
·
20253D Facial Shape Similarity with Deep Perceptual Representations
Seongmin Lee, Jiwoo Kang, Sanghoon Lee
IF 6 (2025)
ACM Transactions on Multimedia Computing Communications and Applications
서로 다른 3D 형상을 비교하는 일은 불규칙성이 존재하기 때문에 어렵다. 인간의 시각 체계가 작동하는 방식에 동기를 두었는데, 이는 전체 3D 기하가 여러 개의 투영(projection)들로 구성된 형태로 명확하게 인지되는 메커니즘이다. 이에 우리는 다중 시점(multiview) 딥 지각 표현을 활용한 새로운 얼굴 형상 유사도 측정 방법을 제안한다. 우리는 얼굴 메쉬를 여러 좌표에서 정확하게 표현하는 다중 시점 분리(disentangling) 방식을 도입하고, 여러 투영을 통해 네트워크를 신뢰성 있게 학습하기 위한 시점 특이성(view specificity)과 영역 일관성(regional consistency)을 포함하는 학습 전략을 제시한다. 시점 특이성은 얼굴 유사성을 더 잘 인지하기 위한 인간의 시각적 지각과 관련된다. 영역 일관성은 시점들 사이에서의 영역 중복성을 완화한다. 따라서 시점에 대한 견고한 지각 특징이 내재되며 정확한 유사도 측정이 가능해진다. 결과적으로, 시점별 통합(integration) 방식은 모든 시점의 유사성을 포함하여 매우 일관된 측정을 가능하게 한다. 실험 결과, 제안된 유사도는 기존의 최첨단(state-of-the-arts) 방법을 능가하며 기하 및 인간 지각 측면에서 세부 정보를 유의미하게 향상시키는 것으로 나타났다.
https://doi.org/10.1145/3734874
Computer science
Artificial intelligence
Similarity (geometry)
Perception
Redundancy (engineering)
Consistency (knowledge bases)
Computer vision
Pattern recognition (psychology)
Visual perception
Image (mathematics)
2
Article
|
·
인용수 3
·
2024Speech-Driven Emotional 3d Talking Face Animation Using Emotional Embeddings
Seongmin Lee, Jeonghaeng Lee, Hyewon Song, Sanghoon Lee
기존의 정서적 말하기 3D 얼굴 애니메이션은 주로 특정 정서 조건을 사용하여 정서적 얼굴을 애니메이팅하는 데 초점을 맞추고 있다. 그러나 실제 상황에서는 누구도 일관되게 단 한 가지 정서만을 가지고 말하지 않는다. 따라서 기존의 정서 기반 접근법은 실세계 응용에서의 적용 가능성이 매우 제한적이다. 이러한 문제를 해결하기 위해, 우리는 SDETalk이라는 새로운 학습 프레임워크를 제안하며, 음성에서 정서적 소스를 활용하여 정서적 말하기 얼굴을 애니메이팅한다. 이전 연구들이 정적인 원-핫(one-hot) 정서 조건을 사용하는 데 비해, 제안하는 네트워크는 음성으로부터 복잡한 정서 상태를 회귀(regress)한다. 이를 통해 특정 정서 조건을 사용하지 않고도 정서가 담긴 음성으로부터 자연스러운 얼굴 애니메이션을 생성할 수 있다. 또한, 머리 움직임은 말하기 얼굴 애니메이션의 자연스러움을 향상시키는 중요한 요소이므로, 제안 방법은 머리 움직임을 생성하도록 설계한다. 그 결과, 우리의 접근법은 정서적 음성으로부터 정확한 입 모션, 자연스러운 표정, 리듬감 있는 머리 움직임을 동시에 달성한다. 질적 및 양적 측면에서의 광범위한 실험을 통해, 본 방법이 실제적이고 표현력 있는 3D 얼굴을 애니메이팅함으로써 다른 최신 기법들보다 우수함이 입증되었다.
https://doi.org/10.1109/icassp48485.2024.10446842
Naturalness
Animation
Computer facial animation
Computer science
Facial expression
Face (sociological concept)
Focus (optics)
Motion (physics)
Dynamics (music)
Natural (archaeology)
3
Article
|
·
인용수 5
·
2024DMESH: A Structure-Preserving Diffusion Model for 3-D Mesh Denoising
Seongmin Lee, Suwoong Heo, Sanghoon Lee
IF 8.9 (2024)
IEEE Transactions on Neural Networks and Learning Systems
노이징 제거 확산(denoising diffusion) 모델은 노이즈를 점진적으로 제거함으로써 고품질 이미지 샘플을 생성하는 강력한 능력을 보여주었다. 이에 영감을 받아, 메시에서 점진적으로 노이즈를 제거하는 확산 기반 메시에스 denoiser를 제시한다. 일반적으로 확산 모델의 반복적 알고리즘은 대상 메시에 대해 전체 구조와 세부 디테일을 동시에 조작하려고 시도한다. 이러한 이유로, 아티팩트를 제거하면서도 구조를 유지하는 메시 노이즈 제거 작업에 확산 과정을 적용하기는 어렵다. 이를 해결하기 위해, 구조를 보존하는 확산 과정을 수식화한다. 메시 꼭짓점을 0을 중심으로 하는 등방성 가우시안 분포로 분산시키는 대신, 각 꼭짓점을 특정 노이즈 분포로 확산시키며, 이때 전체 구조를 보존할 수 있다. 또한, 정점(vertex)을 여러 개의 2-D 관점으로 투영하여 딥 네트워크로 확산을 효율적으로 학습할 수 있는, 토폴로지 비의존적(topology-agnostic) 메시 확산 모델을 제안한다. 이를 통해, 불규칙한 토폴로지를 갖는 임의의 메시의 확산을 학습할 수 있다. 마지막으로, 역확산(reverse diffusion)으로부터 얻은 2-D 투영에 기반한 정련(refinement)을 통해 노이즈 제거된 메시를 얻을 수 있다. 광범위한 실험을 통해, 본 방법이 정량적 및 정성적 평가 모두에서 기존의 최신 메시에스 노이즈 제거 방법들보다 성능이 우수함을 보여준다.
https://doi.org/10.1109/tnnls.2024.3367327
Polygon mesh
Noise reduction
Computer science
Diffusion process
Vertex (graph theory)
Anisotropic diffusion
Noise (video)
Diffusion
Triangle mesh
Topology (electrical circuits)
4
Article
|
·
인용수 6
·
20243D-PSSIM: Projective Structural Similarity for 3D Mesh Quality Assessment Robust to Topological Irregularities
Seongmin Lee, Jiwoo Kang, Sanghoon Lee, Weisi Lin, Alan C. Bovik
IF 18.6 (2024)
IEEE Transactions on Pattern Analysis and Machine Intelligence
3D 메시의 사용이 가속화되고 있음에도 불구하고, 인간의 주관적 의견과 매우 높은 상관관계를 갖는 예측을 산출할 수 있는 효과적인 메시 품질 평가 알고리즘을 찾기는 어렵다. 메시의 품질 특징을 정의하는 일은, 꼭짓점과 삼각형으로 정의되는 메시의 불규칙한 토폴로지로 인해 까다롭다. 이를 해결하기 위해, 토폴로지 차이에 강인한 새로운 3D 투영 구조적 유사도 지수(3D- PSSIM)를 제안한다. 우리는 메시들 간의 토폴로지 차이를, 메시의 텍스처와 기하학적 형상을 메시에 토폴로지가 어떠하든 조밀하게 표현할 수 있는 다중 시점 및 다중 레이어 투영을 도입하여 다룬다. 또한 투영 과정에서 발생하는 가림(occlusion) 문제를 해결한다. 우리는 메시 표면 곡률의 정도에 대한 지각적 민감도를 포착하는 시각적 민감도 가중치를 제안한다. 3D- PSSIM은 2D 공간에서가 아니라 메시 도메인에서, 여러 투영 공간에서 계산된 품질 인지(quality-aware) 특징들을 집계함으로써 지각 기반 품질 예측을 계산한다. 이를 통해 3D- PSSIM은 기하학적 또는 색상 손상으로 인해 메시 표면의 어느 부분이 왜곡되는지를 판별할 수 있다. 실험 결과는 3D- PSSIM이 노이즈가 존재하는 경우를 포함하여, 토폴로지 차이가 크더라도, 인간의 주관적 판단과의 높은 상관관계를 바탕으로 메시 품질을 예측할 수 있으며, 기존 메시 품질 평가 모델보다 성능이 우수함을 보여준다.
https://doi.org/10.1109/tpami.2024.3422490
Computer science
Topology (electrical circuits)
Polygon mesh
Similarity (geometry)
Projective test
Artificial intelligence
Quality (philosophy)
Pattern recognition (psychology)
Computer vision
Mathematics
5
Article
|
인용수 2
·
2023Stabilized Temporal 3D Face Alignment Using Landmark Displacement Learning
Seongmin Lee, Hyunse Yoon, So‐Hyun Park, Sanghoon Lee, Jiwoo Kang
IF 2.6 (2023)
Electronics
3D 얼굴 모델의 가장 중요한 측면 중 하나는 얼굴 재구성이다. 그러나 3D 형태가능 모델(3DMM)을 표현이 강한 얼굴에 적합시킬 때, 얼굴 형상 왜곡이 정체성(identity) 때문인지 표현(expression) 때문인지가 명확하지 않다. 이러한 문제를 해결하기 위해, 우리는 시간에 따라 안정적이고 정밀한 얼굴을 재구성하기 위한 신경망을 제안한다. 재구성 네트워크는 비디오 시퀀스로부터 3DMM 파라미터를 추출하여 시간에 따라 변하는 3D 얼굴을 표현한다. 한편, 우리의 변위(displacement) 네트워크는 얼굴 랜드마크의 변화를 학습한다. 특히, 네트워크는 각각 얼굴 정체성, 얼굴 표정, 그리고 시간적 단서로 인해 발생하는 변화를 학습한다. 제안된 얼굴 정렬(facial alignment) 네트워크는 이러한 변위 네트워크를 활용함으로써 정적 및 동적 얼굴을 재구성하는 데 있어 신뢰할 수 있고 정밀한 성능을 보인다. 300 Videos in the Wild(300VW) 데이터셋을 활용하여 정성적 및 정량적 평가를 수행함으로써 본 방법의 효과를 확인한다. 그 결과, 본 방법은 비디오 시퀀스로부터 3D 얼굴을 재구성하는 데 있어 상당한 이점을 보이는 것으로 나타났다.
https://doi.org/10.3390/electronics12173735
Computer science
Landmark
Face (sociological concept)
Artificial intelligence
Displacement (psychology)
Distortion (music)
Computer vision
Identity (music)
Facial expression
Artificial neural network