논문 | 김태완 교수 연구실 | 동덕여자대학교 데이터사이언스전공

|김태완 교수 연구실

홈

연구 영역

기본 정보

논문·특허

구성원

논문

연구 성과 추이

표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

주요 논문

*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.

Article

인용수 0

2025

CQAD: An Image Quality Assessment Dataset for CCTV

Yujin Han, Taewan Kim

Journal of Multimedia Information System

이 논문은 실제 감시 환경의 복잡성을 반영하도록 특별히 설계된 새로운 영상 품질 평가(IQA) 데이터셋인 CCTV 품질 평가 데이터셋(CQAD)을 제시한다. 기존의 IQA 데이터셋은 대부분 자연 영상을 기반으로 하며, CCTV 영상에서 흔히 마주치는 다양한 조건과 열화 특성을 충분히 포착하지 못한다. 예를 들어 조명의 변화, 고정된 시점, 환경 잡음 등이 이에 해당한다. 이러한 공백을 해소하기 위해 CQAD는 실내 및 실외의 다양한 장소에서 설치된 실제 감시 카메라로부터 수집한 기준(reference) 이미지 120장을 포함하며, 주간 및 야간 조건 모두에서 촬영되었다. 각 기준 이미지는 여섯 가지의 일반적인 왜곡 유형 중 하나를 사용하여 열화되었고, 평균 의견 점수(MOS) 프레임워크를 통해 55명의 인간 참여자로부터 주관적 품질 평점을 얻었다. 실험 분석 결과, 지각된 영상 품질은 왜곡 유형뿐만 아니라 장면 맥락, 조명 조건, 하루 중 시간에 의해서도 영향을 받는 것으로 나타났다. CQAD는 장면 인지(scene-aware) IQA 모델의 개발, AI 기반 비디오 분석의 견고성 평가, 그리고 실제 감시 응용에 맞춘 복원(restoration) 기법의 설계에 유용한 벤치마크를 제공한다.

https://doi.org/10.33851/jmis.2025.12.3.81

Image quality

Distortion (music)

Benchmark (surveying)

Quality assessment

Image (mathematics)

Quality (philosophy)

Scene statistics

Article

인용수 0

2025

Face and voice cross-modal association with learning convex feature embedding

Taewan Kim, Jiwoo Kang

IF 3.1 (2025)

Multimedia Systems

https://doi.org/10.1007/s00530-025-01872-9

Modal

Computer science

Embedding

Feature (linguistics)

Association (psychology)

Artificial intelligence

Speech recognition

Face (sociological concept)

Feature learning

Regular polygon

Article

인용수 8

2024

Deep Transformer Based Video Inpainting Using Fast Fourier Tokenization

Taewan Kim, Jin-Woo Kim, Heeseok Oh, Jiwoo Kang

IF 3.6 (2024)

IEEE Access

멀리 떨어진 시공간 상호작용을 연결하는 것은, 큰 이동 마스크를 사용하는 고품질 비디오 인페인팅에서 중요하다. 대부분의 기존 기술은 프레임 내에서 패치 유사성을 활용하거나, 공간 및 시간 차원에서 구멍을 메우기 위해 대규모 학습 데이터를 이용한다. 최근 연구들은 근접 상호작용의 지배로부터 벗어나기 위해 딥 비디오 인페인팅에 유망한 Transformer 구조를 도입함으로써, 기존 기준 모델보다 우수한 성능을 달성한다. 그러나 이러한 방법들은 여전히 복잡한 장면을 포함하는 더 큰 구멍을 완성하는 데 어려움을 겪는다. 이 문제를 완화하기 위해, 우리는 먼저 토큰 표현을 위해 프레임 전역의 수용영역을 포괄하는 빠른 푸리에 합성곱을 사용한다. 그런 다음 토큰은 분리된 시공간 Transformer를 통과하여 장거리 문맥 관계를 명시적으로 모델링하는 동시에, 모든 입력 프레임에서 누락된 영역을 동시에 완성한다. 비디오 인페인팅을 방향성이 없는 시퀀스-투-시퀀스 예측 과제로 정식화함으로써, 우리 모델은 큰 결손 영역이나 복잡한 기하구조와 같은 조건에서도 시각적으로 일관된 콘텐츠를 채운다. 또한 우리의 시공간 Transformer는 경계로부터 구멍을 반복적으로 채워 풍부한 문맥 정보를 활용할 수 있다. 우리는 표준 정지 마스크와 보다 현실적인 움직이는 객체 마스크를 사용하여 제안한 모델의 우수성을 검증한다. 정성적 및 정량적 결과 모두에서, 우리 모델은 최신 알고리즘과 비교하여 유리함을 보인다.

https://doi.org/10.1109/access.2024.3361283

Computer science

Inpainting

Transformer

Artificial intelligence

Computer vision

Computer graphics (images)

Fourier transform

Image (mathematics)

Electrical engineering

Mathematics

Article

인용수 20

2024

Speech Emotion Recognition Using Deep Learning Transfer Models and Explainable Techniques

Taewan Kim, Keun-Chang Kwak

IF 2.5 (2024)

Applied Sciences

본 연구는 기존의 음성 감정 인식(SER) 연구에 비해 더 높은 신뢰성을 정립하는 것을 목적으로 한다. 이는 불확실성 요소를 감소시키는 전처리 기법, 각 모델의 구조적 특징을 결합하는 모델, 그리고 다양한 설명 가능 기법의 적용을 통해 달성한다. 해석 가능성은 불확실한 학습 데이터를 줄이고, 데이터를 서로 다른 환경에 적용하며, 결과의 도출 근거를 설명하는 기법을 적용함으로써 보다 정확해질 수 있다. 본 연구에서는 세 가지 서로 다른 데이터셋을 사용하여 범용 모델을 설계하였으며, 각 음성은 STFT 전처리를 통해 스펙트로그램 이미지로 변환하였다. 스펙트로그램은 모델 입력 크기에 맞추기 위해 시간 영역에서 중첩(overlapping)을 두어 분할하였다. 각 분할 구간은 가우시안 분포로 표현되며, 분포 간 상관계수를 통해 데이터의 품질을 조사하였다. 그 결과 데이터의 규모가 축소되고 불확실성이 최소화되었다. VGGish와 YAMNet은 음성 처리와 함께 빈번히 사용되는 대표적인 사전학습(pretrained) 딥러닝 네트워크이다. 음성 신호 처리에서 이들 사전학습 모델을 배타적으로 단독 사용하는 것보다 상호 시너지적으로 활용하는 것이 유리한 경우가 많으며, 이에 따라 앙상블 딥 네트워크를 구축하였다. 그리고 마지막으로 분류 결과를 분석하기 위해 다양한 설명 가능 모델(Grad CAM, LIME, occlusion sensitivity)을 사용하였다. 본 모델은 다양한 환경의 음성에 대한 적응성을 보였고, 분류 정확도 87%를 달성하여 개별 모델보다 성능이 우수하였다. 또한 출력 결과는 설명 가능 모델을 통해 핵심 감정 영역을 추출한 후, 시간 영역에서 Grad CAM을 적용하여 청각 분석을 위한 오디오 파일로 변환함으로써 확인하였다. 본 연구를 통해 Grad CAM으로 생성되는 활성 영역의 불확실성을 향상시킨다. 이를 위해 선행 연구의 해석 가능성 능력을 적용하고, 효과적인 전처리 및 융합 모델을 함께 사용한다. 또한 다른 설명 가능 기법을 통해 보다 다양한 관점에서 분석할 수 있다.

https://doi.org/10.3390/app14041553

Spectrogram

Computer science

Speech recognition

Artificial intelligence

Preprocessor

Pattern recognition (psychology)

Reliability (semiconductor)

Machine learning

Article

인용수 22

2022

Toward an Online Continual Learning Architecture for Intrusion Detection of Video Surveillance

Beom Kwon, Taewan Kim

IF 3.9 (2022)

IEEE Access

최근 딥러닝 기술의 발전에 따라, 많은 상용 비디오 감시 시스템이 우리의 삶을 더 똑똑하고 안전하게 만들기 위한 방법으로 인공지능(AI) 기반 비디오 분석 기술을 도입하고 있다. 그럼에도 불구하고, 높은 정확도와 낮은 계산 비용을 모두 고려하는 상용 서비스용 적절한 네트워크 모델을 갖춘 견고한 아키텍처는 아직 없다. 기존의 딥러닝 기술만으로는 현실 세계 장면의 역학을 모델링하고 표현하기에 충분하지 않아, 일반적인 모델을 사용하여 모든 환경을 만족시키기 어렵다. 다만, 오경보 및/또는 미탐 사례로부터의 적절한 학습 데이터는 이러한 한계를 해소할 수 있지만, 개인 데이터의 프라이버시와 관련된 법적 이슈 및 새로 유입되는 데이터의 예측 불가능성 때문에 해당 데이터가 거의 제공되지 않는다. 본 논문에서는 신뢰성 있는 객체 검출을 위한 새로운 종단 간(end-to-end) 하이브리드 비디오 감시 아키텍처를 제안하며, 이는 프론트엔드와 백엔드 지능으로 구성된다. 지능형 프론트엔드의 경우, 시스템의 확장성과 유연성을 고려하기 위해 Multi-scale ResBlock 방식을 적용한 새로운 객체 검출기를 제안한다. 또한 지능형 백엔드 아키텍처를 위해, 실시간 공간 및 맥락 정보를 이해함으로써 범용 모델을 각 카메라의 개별 개인 모델로 대체하기 위한 새로운 도메인 적응 방법도 개발 중이다. 이 과정은 새로운 유입 데이터와 기존 모델이 지속적으로 결합되어 반복적이고 연속적인 개선이 이루어지는 형태이다. 우리는 Chameleon 프로젝트라고 불리는 흥미로운 개념 증명(proof-of-concept) 시험을 포함하여 일련의 실험을 수행하였으며, 그 결과 새로운 아키텍처의 높은 정확도와 범용성을 입증함과 동시에 실제 구현에 적용 가능한 견고한 결과를 산출하였다.

https://doi.org/10.1109/access.2022.3201139

Computer science

Scalability

Context (archaeology)

Artificial intelligence

Flexibility (engineering)

Process (computing)

Video tracking

Machine learning

Object detection

Situation awareness

전체 논문

Article

인용수 0

2025

CQAD: An Image Quality Assessment Dataset for CCTV

Yujin Han, Taewan Kim

Journal of Multimedia Information System

https://doi.org/10.33851/jmis.2025.12.3.81

Image quality

Distortion (music)

Benchmark (surveying)

Quality assessment

Image (mathematics)

Quality (philosophy)

Scene statistics

Article

인용수 0

2025

Face and voice cross-modal association with learning convex feature embedding

Taewan Kim, Jiwoo Kang

IF 3.1 (2025)

Multimedia Systems

https://doi.org/10.1007/s00530-025-01872-9

Modal

Computer science

Embedding

Feature (linguistics)

Association (psychology)

Artificial intelligence

Speech recognition

Face (sociological concept)

Feature learning

Regular polygon

Article

인용수 8

2024

Deep Transformer Based Video Inpainting Using Fast Fourier Tokenization

Taewan Kim, Jin-Woo Kim, Heeseok Oh, Jiwoo Kang

IF 3.6 (2024)

IEEE Access

https://doi.org/10.1109/access.2024.3361283

Computer science

Inpainting

Transformer

Artificial intelligence

Computer vision

Computer graphics (images)

Fourier transform

Image (mathematics)

Electrical engineering

Mathematics

Article

인용수 20

2024

Speech Emotion Recognition Using Deep Learning Transfer Models and Explainable Techniques

Taewan Kim, Keun-Chang Kwak

IF 2.5 (2024)

Applied Sciences

https://doi.org/10.3390/app14041553

Spectrogram

Computer science

Speech recognition

Artificial intelligence

Preprocessor

Pattern recognition (psychology)

Reliability (semiconductor)

Machine learning

Article

인용수 22

2022

Toward an Online Continual Learning Architecture for Intrusion Detection of Video Surveillance

Beom Kwon, Taewan Kim

IF 3.9 (2022)

IEEE Access

https://doi.org/10.1109/access.2022.3201139

Computer science

Scalability

Context (archaeology)

Artificial intelligence

Flexibility (engineering)

Process (computing)

Video tracking

Machine learning

Object detection

Situation awareness

Preprint

인용수 0

2026

AV-DanceQA: Audio-Visual Sync Entropy for Short-Form Dance Quality Assessment

Taewan Kim

SSRN Electronic Journal

https://doi.org/10.2139/ssrn.6613909

sync

Dance

Synchronization (alternating current)

Perception

Entropy (arrow of time)

Rhythm

Beat (acoustics)

Motion capture

Article

인용수 0

2025

Convolutional neural shading for high-quality 3D reconstruction from multi-view images

Juheon Hwang, Taewan Kim, Heeseok Oh, Jiwoo Kang

IF 3.1 (2025)

Multimedia Systems

https://doi.org/10.1007/s00530-025-01883-6

Computer science

Convolutional neural network

Artificial intelligence

Computer vision

Computer graphics

Computer graphics (images)

Shading

Article

인용수 0

2025

Collaborative feature aggregation for face super-resolution and robust re-identification

Juheon Hwang, Taewan Kim, Jiwoo Kang

IF 3.1 (2025)

Multimedia Systems

https://doi.org/10.1007/s00530-025-01918-y

Computer science

Feature (linguistics)

Identification (biology)

Face (sociological concept)

Cryptography

Resolution (logic)

Computer graphics

Artificial intelligence

Data mining

Pattern recognition (psychology)

Article

인용수 0

2025

HIQA-DB: A Benchmark Dataset for Image Quality Assessment in Hospital Surveillance

Yujin Han, Taewan Kim

의료 환경에서 지능형 비디오 분석의 활용이 증가하고 있음에도 불구하고, 알고리즘 성능에 대한 영상 품질의 영향은 충분히 탐구되지 않았다. 특히 병원 감시 영상은 종종 백색 벽, 침대, 환자 의복과 같은 매우 균일한 배경을 보이며, 이는 시각이 저하된 조건에서 사람 검출, 자세 추정, 낙상 감지, 자해(자기해) 모니터링을 복잡하게 만든다. 이를 해결하기 위해, 본 연구는 새로운 병원 영상 품질 평가 데이터베이스(HIQA-DB)를 제시한다. HIQA-DB에는 실제 병원 폐쇄회로 텔레비전(Closed Circuit Television, CCTV) 감시 영상에서 촬영한 150장의 원본 이미지를 포함한다. 각 기준 이미지는 네 가지 유형의 합성 왜곡 버전을 가지며, 그 결과 총 750장의 이미지로 구성된다. 인간 평가자로부터 수집한 주관적 품질 평가는 압축 인공물이 인지된 품질을 가장 크게 저하시킨다는 것을 보여주며, 이는 하위 분석(다운스트림) 애널리틱스 모델에서의 성능 저하와 강하게 상관된다. HIQA-DB는 임상 환경에서 지능형 비디오 분석에 대한 영상 품질의 영향을 이해하고 완화하는 데 유용한 벤치마크를 제공하며, 추가 연구를 지원하기 위해 곧 공개될 예정이다.

https://doi.org/10.1109/apsipaasc65261.2025.11249211

Benchmark (surveying)

Analytics

Image quality

Quality (philosophy)

Image (mathematics)

Image processing

Image compression

Video quality

Article

인용수 8

2025

Sound Source Localization Using Deep Learning for Human–Robot Interaction Under Intelligent Robot Environments

Hollinger Jo, Taewan Kim, Keun-Chang Kwak

IF 2.6 (2025)

Electronics

본 논문에서는 지능형 로봇 환경에서 인간-로봇 상호작용(HRI)을 위한 심층 학습 기반 음원 위치 추정(Sound Source Localization, SSL)을 제안한다. 제안하는 SSL 방법은 세 단계로 구성된다. 첫 번째 단계에서는 로봇 환경에서 잡음과 잔향을 최소화하기 위해 음원을 전처리한다. 로봇에 장착된 마이크 어레이의 음원으로부터 배경의 영향을 최소화하는 데 필요한 음원의 원래 성분만을 포함하는 여기원 정보(Excitation source information, ESI)를 추출한다. 여기서 선형 예측 잔차(linear prediction residual)를 ESI로 사용한다. 이어서 각 음원의 ESI 신호를 이용하여 인접한 마이크 쌍 각각 사이의 교차상관 신호(cross-correlation signal)를 계산한다. 잡음의 영향을 최소화하기 위해 위상 변환을 포함한 일반화 교차상관(Generalized Cross-Correlation with the phase transform, GCC-PHAT) 알고리즘을 사용한다. 두 번째 단계에서는 도달시간(time difference of arrival, TDOA)을 이용하여 각 인접 마이크 쌍 사이에서 계산된 교차상관 신호와 음원 위치를 독립적으로 학습할 수 있는 단일 채널, 다중 입력(convolutional neural network) 합성곱 신경망을 설계한다. 세 번째 단계에서는 제안된 네트워크로 학습한 후 음원 위치를 분류한다. 기존 연구들은 주로 다양한 특징을 입력으로 사용하고 이를 다중 채널에 적층하여 알고리즘을 복잡하게 만들었으며, 또한 다중 채널 입력만으로는 각 음원 간의 상호 관련성을 명확히 학습하기에 충분하지 않을 수 있다. 이러한 문제를 해결하기 위해 각 음원 간의 교차상관 신호(cross-correlation signal)만을 네트워크 입력으로 사용한다. 제안 방법은 로봇 환경에서 획득한 한국전자통신연구원-음원 위치 추정(Electronics and Telecommunications Research Institute-Sound Source Localization, ETRI-SSL) 데이터베이스에서 검증되었다. 실험 결과, 제안된 방법은 기존 연구에 비해 8.75% 더 높은 성능을 보였다.

https://doi.org/10.3390/electronics14051043

Acoustic source localization

Computer science

Microphone array

Robot

Reverberation

SIGNAL (programming language)

Multilateration

Microphone

Cross-correlation

Noise (video)

전체 논문

Article

인용수 0

2025

CQAD: An Image Quality Assessment Dataset for CCTV

Yujin Han, Taewan Kim

Journal of Multimedia Information System

https://doi.org/10.33851/jmis.2025.12.3.81

Image quality

Distortion (music)

Benchmark (surveying)

Quality assessment

Image (mathematics)

Quality (philosophy)

Scene statistics

Article

인용수 0

2025

Face and voice cross-modal association with learning convex feature embedding

Taewan Kim, Jiwoo Kang

IF 3.1 (2025)

Multimedia Systems

https://doi.org/10.1007/s00530-025-01872-9

Modal

Computer science

Embedding

Feature (linguistics)

Association (psychology)

Artificial intelligence

Speech recognition

Face (sociological concept)

Feature learning

Regular polygon

Article

인용수 8

2024

Deep Transformer Based Video Inpainting Using Fast Fourier Tokenization

Taewan Kim, Jin-Woo Kim, Heeseok Oh, Jiwoo Kang

IF 3.6 (2024)

IEEE Access

https://doi.org/10.1109/access.2024.3361283

Computer science

Inpainting

Transformer

Artificial intelligence

Computer vision

Computer graphics (images)

Fourier transform

Image (mathematics)

Electrical engineering

Mathematics

Article

인용수 20

2024

Speech Emotion Recognition Using Deep Learning Transfer Models and Explainable Techniques

Taewan Kim, Keun-Chang Kwak

IF 2.5 (2024)

Applied Sciences

https://doi.org/10.3390/app14041553

Spectrogram

Computer science

Speech recognition

Artificial intelligence

Preprocessor

Pattern recognition (psychology)

Reliability (semiconductor)

Machine learning

Article

인용수 22

2022

Toward an Online Continual Learning Architecture for Intrusion Detection of Video Surveillance

Beom Kwon, Taewan Kim

IF 3.9 (2022)

IEEE Access

https://doi.org/10.1109/access.2022.3201139

Computer science

Scalability

Context (archaeology)

Artificial intelligence

Flexibility (engineering)

Process (computing)

Video tracking

Machine learning

Object detection

Situation awareness

Preprint

인용수 0

2026

AV-DanceQA: Audio-Visual Sync Entropy for Short-Form Dance Quality Assessment

Taewan Kim

SSRN Electronic Journal

https://doi.org/10.2139/ssrn.6613909

sync

Dance

Synchronization (alternating current)

Perception

Entropy (arrow of time)

Rhythm

Beat (acoustics)

Motion capture

Article

인용수 0

2025

Convolutional neural shading for high-quality 3D reconstruction from multi-view images

Juheon Hwang, Taewan Kim, Heeseok Oh, Jiwoo Kang

IF 3.1 (2025)

Multimedia Systems

https://doi.org/10.1007/s00530-025-01883-6

Computer science

Convolutional neural network

Artificial intelligence

Computer vision

Computer graphics

Computer graphics (images)

Shading

Article

인용수 0

2025

Collaborative feature aggregation for face super-resolution and robust re-identification

Juheon Hwang, Taewan Kim, Jiwoo Kang

IF 3.1 (2025)

Multimedia Systems

https://doi.org/10.1007/s00530-025-01918-y

Computer science

Feature (linguistics)

Identification (biology)

Face (sociological concept)

Cryptography

Resolution (logic)

Computer graphics

Artificial intelligence

Data mining

Pattern recognition (psychology)

Article

인용수 0

2025

HIQA-DB: A Benchmark Dataset for Image Quality Assessment in Hospital Surveillance

Yujin Han, Taewan Kim

https://doi.org/10.1109/apsipaasc65261.2025.11249211

Benchmark (surveying)

Analytics

Image quality

Quality (philosophy)

Image (mathematics)

Image processing

Image compression

Video quality

Article

인용수 8

2025

Sound Source Localization Using Deep Learning for Human–Robot Interaction Under Intelligent Robot Environments

Hollinger Jo, Taewan Kim, Keun-Chang Kwak

IF 2.6 (2025)

Electronics

https://doi.org/10.3390/electronics14051043

Acoustic source localization

Computer science

Microphone array

Robot

Reverberation

SIGNAL (programming language)

Multilateration

Microphone

Cross-correlation

Noise (video)

주요 논문

*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.

Article

인용수 0

2025

CQAD: An Image Quality Assessment Dataset for CCTV

Yujin Han, Taewan Kim

Journal of Multimedia Information System

https://doi.org/10.33851/jmis.2025.12.3.81

Image quality

Distortion (music)

Benchmark (surveying)

Quality assessment

Image (mathematics)

Quality (philosophy)

Scene statistics

Article

인용수 0

2025

Face and voice cross-modal association with learning convex feature embedding

Taewan Kim, Jiwoo Kang

IF 3.1 (2025)

Multimedia Systems

https://doi.org/10.1007/s00530-025-01872-9

Modal

Computer science

Embedding

Feature (linguistics)

Association (psychology)

Artificial intelligence

Speech recognition

Face (sociological concept)

Feature learning

Regular polygon

Article

인용수 8

2024

Deep Transformer Based Video Inpainting Using Fast Fourier Tokenization

Taewan Kim, Jin-Woo Kim, Heeseok Oh, Jiwoo Kang

IF 3.6 (2024)

IEEE Access

https://doi.org/10.1109/access.2024.3361283

Computer science

Inpainting

Transformer

Artificial intelligence

Computer vision

Computer graphics (images)

Fourier transform

Image (mathematics)

Electrical engineering

Mathematics

Article

인용수 20

2024

Speech Emotion Recognition Using Deep Learning Transfer Models and Explainable Techniques

Taewan Kim, Keun-Chang Kwak

IF 2.5 (2024)

Applied Sciences

https://doi.org/10.3390/app14041553

Spectrogram

Computer science

Speech recognition

Artificial intelligence

Preprocessor

Pattern recognition (psychology)

Reliability (semiconductor)

Machine learning

Article

인용수 22

2022

Toward an Online Continual Learning Architecture for Intrusion Detection of Video Surveillance

Beom Kwon, Taewan Kim

IF 3.9 (2022)

IEEE Access

https://doi.org/10.1109/access.2022.3201139

Computer science

Scalability

Context (archaeology)

Artificial intelligence

Flexibility (engineering)

Process (computing)

Video tracking

Machine learning

Object detection

Situation awareness