주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
article
|
·
인용수 0
·
2026LVMark: Robust Watermark for Latent Video Diffusion Models
Youngdong Jang, MinHyuk Jang, Jaehyeok Lee, Feng Yang, Gyeongrok Oh, Jongheon Jeong, Sangpil Kim
IF 8 (2026)
IEEE Transactions on Information Forensics and Security
비디오 확산 모델에서의 급속한 발전은 사실적인 비디오의 생성을 가능하게 하였으나, 무단 사용에 대한 우려를 불러일으키며 모델 소유권을 보호하기 위한 기법에 대한 수요를 촉진하고 있다. 기존 워터마킹 방법은 두 가지 주요 한계를 가진다. 즉, 기존의 워터마크 디코더로 인해 시간적 일관성을 간과하며, 생성된 비디오의 시각적 품질을 저하시킨다는 점이다. 이러한 문제를 해결하기 위해 잠재 비디오 확산 모델을 위한 강건한 워터마킹 방법인 Latent Video Diffusion Watermarking (LVMark)를 제안한다. 우리는 인접 프레임 간의 일관성을 학습함으로써 생성 비디오에 특화된 새로운 워터마크 디코더를 제안한다. 이는 3차원 웨이블릿(wavelet) 도메인의 저주파 성분과 비디오의 색상 특징을 결합하여, 악의적인 공격 하에서도 정확한 메시지 디코딩을 보장한다. 또한 생성된 비디오의 시각적 충실도를 유지하기 위해 잠재 디코더를 학습한다. 워터마크는 시각적 외관에 대한 영향이 최소가 되도록 중요도 기반 가중치 변조(importance-based weight modulation) 전략을 사용하여 층(layer)에 삽입한다. 우리는 확산 모델의 워터마크 디코더와 잠재 디코더 모두를 최적화함으로써 시각적 품질과 비트 정확도 간의 상충 관계를 효과적으로 균형 있게 조절한다. 실험 결과, 본 방법은 비디오 확산 모델에 보이지 않는 워터마크를 삽입하면서 왜곡(distortions) 하에서도 512비트 용량으로 강건한 디코딩 정확도를 보장함을 확인하였다.
https://doi.org/10.1109/tifs.2026.3688194
Watermark
Pattern recognition (psychology)
Digital watermarking
Robustness (evolution)
Diffusion
Noise (video)
2
article
|
·
인용수 3
·
2025High-quality three-dimensional cartoon avatar reconstruction with Gaussian splatting
MinHyuk Jang, Jong Wook Kim, Youngdong Jang, Donghyun Kim, Wonseok Roh, InYong Hwang, Guang Lin, Sangpil Kim
IF 8 (2025)
Engineering Applications of Artificial Intelligence
https://doi.org/10.1016/j.engappai.2025.110305
Computer science
Avatar
Computer graphics (images)
Artificial intelligence
Computer vision
Human–computer interaction
3
article
|
·
인용수 0
·
2025Semantically complex audio to video generation with audio source separation
Sieun Kim, Sieun Kim, Jaehwan Jeong, Sumin In, Seung Hyun Lee, Seungryong Kim, Seungryong Kim, Saerom Kim, Saerom Kim, W. P. Baek, Sang Ho Yoon, Eugenio Culurciello, Sangpil Kim, Sangpil Kim
IF 8 (2025)
Engineering Applications of Artificial Intelligence
https://doi.org/10.1016/j.engappai.2025.110457
Computer science
Source separation
Multimedia
Speech recognition
4
article
|
·
인용수 0
·
2025Single image-based Gaussian splatting for 3D reconstruction of movable articulated objects
Hwanhee Jung, Seunggwan Lee, Jeongyoon Yoon, Qixing Huang, Sangpil Kim
IF 9.9 (2025)
Advanced Engineering Informatics
https://doi.org/10.1016/j.aei.2025.104191
Gaussian
Segmentation
3D reconstruction
Motion capture
Rendering (computer graphics)
RGB color model
Leverage (statistics)
Ground truth
5
article
|
인용수 4
·
2024Audio-guided implicit neural representation for local image stylization
Seung Hyun Lee, Sieun Kim, Wonmin Byeon, Gyeongrok Oh, Sumin In, Hyeongcheol Park, Sang Ho Yoon, Sunghee Hong, Jinkyu Kim, Sangpil Kim
IF 18.3 (2024)
Computational Visual Media
우리는 음성 유도를 통한 국소화 이미지 스타일화(audo-guided localized image stylization)를 위한 새로운 프레임워크를 제안한다. 소리는 장면의 특정 맥락에 관한 정보를 제공하며, 장면의 특정 부분 또는 대상과 밀접하게 연관되어 있다. 그러나 기존의 이미지 스타일화 연구들은 이미지 또는 텍스트 입력을 사용하여 전체 이미지를 스타일화하는 데에 초점을 맞춰 왔다. 음성 입력에 따라 이미지의 특정 부분을 스타일화하는 것은 자연스러우나 도전적이다. 본 연구는 사용자가 음성 입력을 제공하여 입력 이미지에서 목표를 국소화하고, 동시에 목표 대상 또는 장면을 음성에 근거해 국소적으로 스타일화하도록 하는 프레임워크를 제안한다. 먼저 CLIP 임베딩 공간을 활용하는 오디오-비주얼 국소화 네트워크를 통해 정밀한 국소화 맵(fine localization map)을 생성한다. 이후 예측된 국소화 맵과 함께 암시적 신경 표현(implicit neural representation, INR)을 이용하여 음성 정보에 기반해 목표를 스타일화한다. INR은 제공된 음성 입력과 의미적으로 일관되도록 국소 픽셀 값을 조작한다. 실험 결과, 제안한 프레임워크는 다른 음성 유도 스타일화 방법들보다 우수한 성능을 보였다. 또한, 본 방법은 간결한 국소화 맵을 구성하고 주어진 음성 입력에 따라 목표 대상 또는 장면을 자연스럽게 조작함을 관찰하였다.
https://doi.org/10.1007/s41095-024-0413-5
Representation (politics)
Computer science
Computer graphics
Image (mathematics)
Computer graphics (images)
Graphics
Artificial intelligence
Computer vision
Artificial neural network