주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
article
|
·
인용수 0
·
2026Spatio-Temporal Spectra-Preserving Neural Representation for Video Modeling
Jina Kim, Je‐Won Kang
IF 6 (2026)
ACM Transactions on Multimedia Computing Communications and Applications
그린 러닝(GL)은 에너지 효율적인 해법과 경량 모델에 중점을 두어 딥러닝에서의 지속가능성을 촉진한다. 비디오를 위한 암시적 신경 표현(INR)은 이러한 패러다임 안에서 비디오 표현을 위한 소형화되고 효율적인 접근을 제공한다. 본 연구는 학습을 향상시키기 위해 신경 접선 커널(neural tangent kernel, NTK) 분석을 활용하는 비디오용 시공간적(sptatiotemporal) 스펙트럼 보존 신경 표현인 SNeRV+를 소개한다. 공간 및 시간 영역 모두에서 스펙트럼 편향을 완화하기 위해, SNeRV+는 2단계 처리 접근을 사용하며, 서로 다른 인코더 가지(encoder branch)가 저주파(LF)와 고주파(HF) 구성요소를 각각 처리한다. 3차원 이산 웨이블릿 변환(3-dimensional discrete wavelet transform)은 각 프레임을 시간적 변이(temporal variations)로 분해하고, LF와 HF 구성요소를 프레임 단위 임베딩으로 인코딩한다. 정적 장면과 안정적인 움직임을 포착하는 LF 구성요소는 프레임 전반에 걸쳐 고정 파라미터로 디코딩되어 시간적 불일치를 줄이고 스펙트럼 편향을 완화한다. 시간에 따라 변하는 세부 정보를 인코딩하는 HF 구성요소는 LF 관련 파라미터를 사전 정보(prior information)로 활용하는 시간적으로 적응적인 가중치(temporally adaptive weights)로 동적으로 재구성된다. 이러한 설계는 시간적 변이를 보다 효율적이고 소형화된 형태로 표현할 수 있게 한다. 실험 결과는 SNeRV+가 비디오 회귀, 보간, 외삽 및 압축에서 기존의 INR 기반 최첨단 방법을 능가하며, 정량적 평가 지표와 정성적 평가 지표 모두에서 우수한 성능을 달성함을 보여준다.
https://doi.org/10.1145/3796711
Leverage (statistics)
Representation (politics)
ENCODE
Pattern recognition (psychology)
Encoder
Kernel (algebra)
Encoding (memory)
Frame (networking)
2
article
|
·
인용수 0
·
2025Label Space-Induced Pseudo Label Refinement for Multi-Source Black-Box Domain Adaptation
Chaehwa Yoo, Xiaofeng Liu, Fangxu Xing, Jonghye Woo, Je‐Won Kang
IF 13.7 (2025)
IEEE Transactions on Image Processing
기존의 비지도 도메인 적응(UDA)은 소스 데이터 및/또는 소스 모델 파라미터에 접근이 필요하므로, 개인정보 보호, 보안, 지적 재산권 측면에서 실용적 적용이 제한된다. 최근의 블랙박스 UDA(BDA)는 단일 캡슐화된 소스 응용 프로그램 프로그래밍 인터페이스(API) 예측으로부터 의사 레이블을 정의함으로써 이러한 제약을 완화하여, 타깃 모델에 대한 자기학습이 가능해진다. 그럼에도 불구하고 기존 방법들은 다중 소스 설정을 고려하는 데 한계가 있는데, 이 설정에서는 여러 소스 도메인 API가 존재하여 의사 레이블을 생성할 수 있다. 본 연구에서는 다중 소스 BDA(MSBDA)를 위한 새로운 학습 프레임워크인 Label Space-Induced Pseudo Label Refinement(LPR)을 제안한다. 구체적으로 LPR은 소스 API의 예측만을 사용하여 타깃 도메인에 조건화된 상태에서 소스 도메인들 간의 관계를 학습하는 Pseudo label Refinery Network(PRN)를 포함한다. 타깃 모델은 PRN의 두 단계(dual phases)에 의해 적응된다. 첫째, 예측에 포함된 잡음 샘플로 인한 실패를 방지하고 초기 의사 레이블을 제공하기 위한 웜업(warm-up) 단계를 목표로 하며, 이어서 도메인 관계 탐색을 수행하는 레이블 정제(label refinement) 단계를 진행한다. LPR의 메커니즘에 대해 이론적 근거를 제공한다. 네 개의 벤치마크 데이터셋에 대한 실험 결과는, LPR을 사용하는 MSBDA가 서로 다른 DA 설정에서 최신 접근법들과 비교 가능한 성능을 달성함을 보여준다.
https://doi.org/10.1109/tip.2025.3570220
Black box
Computer science
Space (punctuation)
Artificial intelligence
Pattern recognition (psychology)
Algorithm
3
article
|
·
인용수 2
·
2025Neural Volumetric Video Coding With Hierarchical Coded Representation of Dynamic Volume
Ju Yeon Shin, Jung-Kyung Lee, Gun Bang, Jun-Sik Kim, Je‐Won Kang
IF 9.7 (2025)
IEEE Transactions on Multimedia
이 논문은 다중 시점(MV) 비디오 부호화를 위한 새로운 기법을 제안하며, 특히 새로운 시점 합성에서 부호화 효율을 향상시키기 위해 4차원(4D) 복셀 그리드 표현을 활용한다. 복셀 그리드 근사는 동적 장면을 연속적으로 나타내는 표현을 제공하지만, 부피(체적) 기반의 특성 때문에 상당한 저장 용량이 요구된다. MV 비디오의 압축은 조밀한 특징(dense features)의 압축으로 해석될 수 있다. 그러나 이러한 특징의 크기가 임의의 시점에서의 동적 장면 생성을 고려할 때 큰 문제를 야기한다. 이를 해결하기 위해, 본 연구에서는 체적 특징의 저랭크 텐서 분해에 기반한 동적 볼륨의 계층적 부호화 표현을 도입하고, 이 표현에 근거한 효과적인 부호화 기법을 개발한다. 제안된 방법은 분해된 특징의 시간적 특성을 포착하기 위해 2단계 부호화 전략을 사용한다. 상위 수준에서는 3D 구조 정보를 나타내는 공간 특징을 부호화하며, 이는 MV 비디오 시퀀스의 짧은 구간 동안 시간에 대해 불변인 성분을 포함한다. 하위 수준에서는 현재 장면의 동역학을 포착하기 위해 시간 특징을 부호화한다. 공간 특징은 하나의 그룹에서 공유되며, 시간 특징은 각 시간 스텝에서 부호화된다. 실험 결과는 제안된 기법이 기존의 MV 비디오 부호화 표준 및 현재의 최첨단 방법을 능가하며, MV 비디오 압축의 새로운 시점 합성에서 더 우수한 전송률-왜곡(rate-distortion) 성능을 제공함을 보여준다.
https://doi.org/10.1109/tmm.2025.3544415
Computer science
Coding (social sciences)
Volume (thermodynamics)
Artificial intelligence
Representation (politics)
Computer vision
Pattern recognition (psychology)
4
article
|
인용수 0
·
2024Reference-based In-loop Filter with Robust Neural Feature Transfer for Video Coding
Nayoung Kim, Jung-Kyung Lee, Je‐Won Kang
IF 6 (2024)
ACM Transactions on Multimedia Computing Communications and Applications
본 논문에서는 비디오 코딩을 위한 효율적인 참조 기반 딥 인-루프 필터링 방법을 제안한다. 기존의 참조 기반 인-루프 필터는 참조 프레임으로부터 관련 텍스처를 포착하는 데 어려움이 있어 코딩 효율을 향상시키는 데 한계가 있는 경우가 많다. 우리의 방법은 참조 블록의 텍스처를 정확히 예측하고, 이를 이용하여 현재 블록을 복원한다. 이를 위해 우리는 특징 영역에서 이전에 코딩된 프레임으로부터 고품질 정보를 전달하는 참조-대-현재 특징 추정 모듈을 개발하여 부정확한 예측으로 인한 세부 손실을 방지한다. 신경망은 코딩된 비디오 프레임을 현재 프레임과 유사하게 복원하도록 학습되지만, 다양한 양자화 파라미터(QP)와 서로 다른 수준의 왜곡을 처리할 때 그 성능이 크게 저하될 수 있다. 이러한 문제는 QP 값이 비디오 프레임에 서로 다르게 적용되는 참조-대-현재 특징 추정에서도 더욱 심각해진다. 우리는 적은 수의 학습 가능한 파라미터로 신뢰할 수 있는 특징을 생성하고, 연속 프레임 간의 세분화된 적응 QP에 적응하기 위해 QP-인지 합성곱 레이어를 개발함으로써 이 문제를 해결한다. 제안된 방법은 다용도 비디오 코딩(versatile video coding, VVC) 참조 소프트웨어인 VTM 버전 10.0에 구현하였다. 실험 결과, 제안된 방법은 VVC에서 코딩 성능을 유의미하게 향상시키는 것으로 나타났다.
https://doi.org/10.1145/3702643
Computer science
Coding (social sciences)
Artificial intelligence
Feature (linguistics)
Loop (graph theory)
Computer vision
Filter (signal processing)
Pattern recognition (psychology)
5
article
|
·
인용수 4
·
2022Noise-Robust Sleep Staging via Adversarial Training With an Auxiliary Model
Chaehwa Yoo, Xiaofeng Liu, Fangxu Xing, Georges El Fakhri, Jonghye Woo, Je‐Won Kang
IF 4.6 (2022)
IEEE Transactions on Biomedical Engineering
딥러닝(DL) 기반 자동 수면 단계 분류 접근법은 뛰어난 정확도 덕분에 최근 큰 주목을 받고 있다. 그러나 시험 단계에서는, 서로 다른 시험 환경에 적용할 때 성능이 저하될 가능성이 있는데, 이는 도메인 쉬프트(domain shift) 문제 때문이다. 그 이유는, 사전 학습된 모델이 일반적으로 정확한 의료 장비에서 획득한 잡음이 없는 뇌파(EEG) 신호로 학습되는 반면, 실제 배치는 바람직하지 않은 잡음이 포함된 소비자 수준의 기기에서 이루어지기 때문이다. 이러한 과제를 완화하기 위해, 본 연구에서는 예측되지 않은 임의의 잡음에 대해 견고한 효율적 학습 접근법을 제안한다. 구체적으로, 보조 모델에서 적대적 변환(adversarial transformation)을 통해 최악의 입력 교란을 생성하여 다양한 입력 교란에 대한 학습을 수행함으로써 신뢰성을 향상시키고자 한다. 우리의 접근법은 두 개의 분리된 학습 모델에 기반한다: (i) 적대적 잡음을 생성하기 위한 보조 모델과 (ii) 잡음 신호를 반영하여 견고성을 향상시키기 위한 목표 네트워크(target network)이다. 또한, 목표 네트워크의 학습 과정에서 수업(클래스)별 견고성(class-wise robustness)이라는 새로운 개념을 활용하여 각 수면 단계가 갖는 서로 다른 견고성 패턴을 나타낸다. 실험 결과, 본 접근법은 경쟁 방법들에 비해 중등도에서 중증 수준의 잡음이 존재하는 상황에서 건강한 대조군에 대한 수면 단계 분류 성능을 향상시켰다. 또한 본 접근법은 적대적(adversarial) 잡음, 가우시안(Gaussian) 잡음, 샷(shot) 잡음을 포함한 다양한 유형의 잡음을 처리하도록 DL 모델을 효과적으로 학습시키고 배치할 수 있었다.
https://doi.org/10.1109/tbme.2022.3214269
Computer science
Robustness (evolution)
Artificial intelligence
Noise (video)
Noise measurement
Gaussian noise
Machine learning
Exploit
Pattern recognition (psychology)
Noise reduction