주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
Article
|
인용수 0
·
2025CQAD: An Image Quality Assessment Dataset for CCTV
Yujin Han, Taewan Kim
Journal of Multimedia Information System
이 논문은 실제 감시 환경의 복잡성을 반영하도록 특별히 설계된 새로운 영상 품질 평가(IQA) 데이터셋인 CCTV 품질 평가 데이터셋(CQAD)을 제시한다. 기존의 IQA 데이터셋은 대부분 자연 영상을 기반으로 하며, CCTV 영상에서 흔히 마주치는 다양한 조건과 열화 특성을 충분히 포착하지 못한다. 예를 들어 조명의 변화, 고정된 시점, 환경 잡음 등이 이에 해당한다. 이러한 공백을 해소하기 위해 CQAD는 실내 및 실외의 다양한 장소에서 설치된 실제 감시 카메라로부터 수집한 기준(reference) 이미지 120장을 포함하며, 주간 및 야간 조건 모두에서 촬영되었다. 각 기준 이미지는 여섯 가지의 일반적인 왜곡 유형 중 하나를 사용하여 열화되었고, 평균 의견 점수(MOS) 프레임워크를 통해 55명의 인간 참여자로부터 주관적 품질 평점을 얻었다. 실험 분석 결과, 지각된 영상 품질은 왜곡 유형뿐만 아니라 장면 맥락, 조명 조건, 하루 중 시간에 의해서도 영향을 받는 것으로 나타났다. CQAD는 장면 인지(scene-aware) IQA 모델의 개발, AI 기반 비디오 분석의 견고성 평가, 그리고 실제 감시 응용에 맞춘 복원(restoration) 기법의 설계에 유용한 벤치마크를 제공한다.
https://doi.org/10.33851/jmis.2025.12.3.81
Image quality
Distortion (music)
Benchmark (surveying)
Quality assessment
Image (mathematics)
Quality (philosophy)
Scene statistics
2
Article
|
·
인용수 0
·
2025Face and voice cross-modal association with learning convex feature embedding
Taewan Kim, Jiwoo Kang
IF 3.1 (2025)
Multimedia Systems
https://doi.org/10.1007/s00530-025-01872-9
Modal
Computer science
Embedding
Feature (linguistics)
Association (psychology)
Artificial intelligence
Speech recognition
Face (sociological concept)
Feature learning
Regular polygon
3
Article
|
인용수 8
·
2024Deep Transformer Based Video Inpainting Using Fast Fourier Tokenization
Taewan Kim, Jin-Woo Kim, Heeseok Oh, Jiwoo Kang
IF 3.6 (2024)
IEEE Access
멀리 떨어진 시공간 상호작용을 연결하는 것은, 큰 이동 마스크를 사용하는 고품질 비디오 인페인팅에서 중요하다. 대부분의 기존 기술은 프레임 내에서 패치 유사성을 활용하거나, 공간 및 시간 차원에서 구멍을 메우기 위해 대규모 학습 데이터를 이용한다. 최근 연구들은 근접 상호작용의 지배로부터 벗어나기 위해 딥 비디오 인페인팅에 유망한 Transformer 구조를 도입함으로써, 기존 기준 모델보다 우수한 성능을 달성한다. 그러나 이러한 방법들은 여전히 복잡한 장면을 포함하는 더 큰 구멍을 완성하는 데 어려움을 겪는다. 이 문제를 완화하기 위해, 우리는 먼저 토큰 표현을 위해 프레임 전역의 수용영역을 포괄하는 빠른 푸리에 합성곱을 사용한다. 그런 다음 토큰은 분리된 시공간 Transformer를 통과하여 장거리 문맥 관계를 명시적으로 모델링하는 동시에, 모든 입력 프레임에서 누락된 영역을 동시에 완성한다. 비디오 인페인팅을 방향성이 없는 시퀀스-투-시퀀스 예측 과제로 정식화함으로써, 우리 모델은 큰 결손 영역이나 복잡한 기하구조와 같은 조건에서도 시각적으로 일관된 콘텐츠를 채운다. 또한 우리의 시공간 Transformer는 경계로부터 구멍을 반복적으로 채워 풍부한 문맥 정보를 활용할 수 있다. 우리는 표준 정지 마스크와 보다 현실적인 움직이는 객체 마스크를 사용하여 제안한 모델의 우수성을 검증한다. 정성적 및 정량적 결과 모두에서, 우리 모델은 최신 알고리즘과 비교하여 유리함을 보인다.
https://doi.org/10.1109/access.2024.3361283
Computer science
Inpainting
Transformer
Artificial intelligence
Computer vision
Computer graphics (images)
Fourier transform
Image (mathematics)
Electrical engineering
Mathematics
4
Article
|
인용수 20
·
2024Speech Emotion Recognition Using Deep Learning Transfer Models and Explainable Techniques
Taewan Kim, Keun-Chang Kwak
IF 2.5 (2024)
Applied Sciences
본 연구는 기존의 음성 감정 인식(SER) 연구에 비해 더 높은 신뢰성을 정립하는 것을 목적으로 한다. 이는 불확실성 요소를 감소시키는 전처리 기법, 각 모델의 구조적 특징을 결합하는 모델, 그리고 다양한 설명 가능 기법의 적용을 통해 달성한다. 해석 가능성은 불확실한 학습 데이터를 줄이고, 데이터를 서로 다른 환경에 적용하며, 결과의 도출 근거를 설명하는 기법을 적용함으로써 보다 정확해질 수 있다. 본 연구에서는 세 가지 서로 다른 데이터셋을 사용하여 범용 모델을 설계하였으며, 각 음성은 STFT 전처리를 통해 스펙트로그램 이미지로 변환하였다. 스펙트로그램은 모델 입력 크기에 맞추기 위해 시간 영역에서 중첩(overlapping)을 두어 분할하였다. 각 분할 구간은 가우시안 분포로 표현되며, 분포 간 상관계수를 통해 데이터의 품질을 조사하였다. 그 결과 데이터의 규모가 축소되고 불확실성이 최소화되었다. VGGish와 YAMNet은 음성 처리와 함께 빈번히 사용되는 대표적인 사전학습(pretrained) 딥러닝 네트워크이다. 음성 신호 처리에서 이들 사전학습 모델을 배타적으로 단독 사용하는 것보다 상호 시너지적으로 활용하는 것이 유리한 경우가 많으며, 이에 따라 앙상블 딥 네트워크를 구축하였다. 그리고 마지막으로 분류 결과를 분석하기 위해 다양한 설명 가능 모델(Grad CAM, LIME, occlusion sensitivity)을 사용하였다. 본 모델은 다양한 환경의 음성에 대한 적응성을 보였고, 분류 정확도 87%를 달성하여 개별 모델보다 성능이 우수하였다. 또한 출력 결과는 설명 가능 모델을 통해 핵심 감정 영역을 추출한 후, 시간 영역에서 Grad CAM을 적용하여 청각 분석을 위한 오디오 파일로 변환함으로써 확인하였다. 본 연구를 통해 Grad CAM으로 생성되는 활성 영역의 불확실성을 향상시킨다. 이를 위해 선행 연구의 해석 가능성 능력을 적용하고, 효과적인 전처리 및 융합 모델을 함께 사용한다. 또한 다른 설명 가능 기법을 통해 보다 다양한 관점에서 분석할 수 있다.
https://doi.org/10.3390/app14041553
Spectrogram
Computer science
Speech recognition
Artificial intelligence
Preprocessor
Pattern recognition (psychology)
Reliability (semiconductor)
Machine learning
5
Article
|
인용수 22
·
2022Toward an Online Continual Learning Architecture for Intrusion Detection of Video Surveillance
Beom Kwon, Taewan Kim
IF 3.9 (2022)
IEEE Access
최근 딥러닝 기술의 발전에 따라, 많은 상용 비디오 감시 시스템이 우리의 삶을 더 똑똑하고 안전하게 만들기 위한 방법으로 인공지능(AI) 기반 비디오 분석 기술을 도입하고 있다. 그럼에도 불구하고, 높은 정확도와 낮은 계산 비용을 모두 고려하는 상용 서비스용 적절한 네트워크 모델을 갖춘 견고한 아키텍처는 아직 없다. 기존의 딥러닝 기술만으로는 현실 세계 장면의 역학을 모델링하고 표현하기에 충분하지 않아, 일반적인 모델을 사용하여 모든 환경을 만족시키기 어렵다. 다만, 오경보 및/또는 미탐 사례로부터의 적절한 학습 데이터는 이러한 한계를 해소할 수 있지만, 개인 데이터의 프라이버시와 관련된 법적 이슈 및 새로 유입되는 데이터의 예측 불가능성 때문에 해당 데이터가 거의 제공되지 않는다. 본 논문에서는 신뢰성 있는 객체 검출을 위한 새로운 종단 간(end-to-end) 하이브리드 비디오 감시 아키텍처를 제안하며, 이는 프론트엔드와 백엔드 지능으로 구성된다. 지능형 프론트엔드의 경우, 시스템의 확장성과 유연성을 고려하기 위해 Multi-scale ResBlock 방식을 적용한 새로운 객체 검출기를 제안한다. 또한 지능형 백엔드 아키텍처를 위해, 실시간 공간 및 맥락 정보를 이해함으로써 범용 모델을 각 카메라의 개별 개인 모델로 대체하기 위한 새로운 도메인 적응 방법도 개발 중이다. 이 과정은 새로운 유입 데이터와 기존 모델이 지속적으로 결합되어 반복적이고 연속적인 개선이 이루어지는 형태이다. 우리는 Chameleon 프로젝트라고 불리는 흥미로운 개념 증명(proof-of-concept) 시험을 포함하여 일련의 실험을 수행하였으며, 그 결과 새로운 아키텍처의 높은 정확도와 범용성을 입증함과 동시에 실제 구현에 적용 가능한 견고한 결과를 산출하였다.
https://doi.org/10.1109/access.2022.3201139
Computer science
Scalability
Context (archaeology)
Artificial intelligence
Flexibility (engineering)
Process (computing)
Video tracking
Machine learning
Object detection
Situation awareness