Auditory Intelligence Laboratory
컴퓨터공학 김지환
Auditory Intelligence Laboratory(청각지능연구실)는 음성 및 오디오 신호 처리, 인공지능 기반 음성인식, 음성합성, 오디오 이벤트 검출 등 다양한 음성처리 기술을 선도적으로 연구하는 연구실입니다. 본 연구실은 End-to-End 방식의 음성인식 시스템, WFST 기반 언어모델 결합, 스트리밍 및 온라인 음성인식, 다화자 환경에서의 화자 분리 및 식별, 그리고 저자원 환경에서도 높은 성능을 보장하는 음성인식 기술 등 다양한 첨단 연구를 수행하고 있습니다.
특히, 설명가능한 인공지능(XAI) 기술을 활용하여 디지털 헬스케어 분야, 예를 들어 뇌졸중 후 마비말장애 환자의 음성 분석 및 진단, 말장애 오류 유형 분석 등 의료와 융합된 인공지능 연구에 집중하고 있습니다. 이를 통해 의료진과 환자 모두에게 신뢰할 수 있는 진단 도구를 제공하며, 사회적 약자 지원에 실질적으로 기여하고 있습니다.
또한, 대규모 언어모델(LLM)과 음성인식의 융합을 통해 외국인 한국어 학습자의 발화 평가, 자동 채점, 발음 오류 분석 등 한국어 교육 분야의 디지털 혁신을 이끌고 있습니다. 다양한 다국적 발화 코퍼스 구축, 데이터 증강, 자동화된 평가 시스템 개발 등을 통해 글로벌 언어교육 시장에서 경쟁력을 확보하고 있습니다.
음성합성(Text-to-Speech) 및 오디오 이벤트 검출 분야에서도 최신 신경망 기반 기술을 적용하여, 자연스러운 음성 생성, 멀티미디어 콘텐츠의 자동 등급 분류, 유해성 이벤트 검출 등 실용적이고 사회적 파급력이 큰 연구를 수행하고 있습니다. 이러한 기술은 스마트홈, IoT, 미디어, 보안 등 다양한 산업 분야에 적용되고 있습니다.
Auditory Intelligence Laboratory는 산학협력, 정부과제, 국제공동연구 등 다양한 프로젝트를 통해 실용적이고 혁신적인 음성처리 기술을 개발하고 있으며, 앞으로도 인공지능과 음성기술의 융합을 선도하는 연구실로서 사회와 산업에 지속적으로 기여할 것입니다.
Korean Speech Recognition
Audio Event Recognition
Deep Learning-based Audio Analysis
End-to-End 방식의 음성인식 시스템
End-to-End(E2E) 방식의 음성인식 시스템은 전통적인 음성인식 시스템에서 요구되는 복잡한 전처리 및 후처리 과정을 최소화하고, 입력 음성 신호로부터 직접적으로 텍스트를 생성하는 혁신적인 접근법입니다. 본 연구실에서는 특히 한국어 음성인식에 특화된 E2E 모델을 개발하고 있으며, WFST(Weighted Finite-State Transducer)와의 결합을 통해 인식 성능과 속도를 동시에 향상시키는 방법론을 연구하고 있습니다. 이러한 접근은 다양한 환경에서의 실시간 음성인식에 매우 효과적이며, 실제 서비스 적용에 적합한 기술로 평가받고 있습니다.
E2E 음성인식 시스템의 주요 장점은 데이터 기반의 학습을 통해 복잡한 음성-텍스트 매핑을 자동으로 최적화할 수 있다는 점입니다. 이를 위해 대규모 음성-텍스트 병렬 코퍼스를 활용하며, 딥러닝 기반의 CTC(Connectionist Temporal Classification), Attention, Transformer, Conformer 등 다양한 신경망 구조를 적용하고 있습니다. 또한, WFST를 활용한 언어모델 결합을 통해 인식 결과의 정확도를 높이고, 다양한 도메인에 맞는 커스터마이징이 가능합니다.
이러한 연구는 스마트폰, 자동차, 로봇 등 다양한 응용 분야에서 실시간 음성인식 서비스를 구현하는 데 핵심적인 역할을 하고 있습니다. 앞으로도 본 연구실은 한국어뿐만 아니라 다국어 환경, 저자원 언어, 특수 환경(잡음, 다화자 등)에서도 높은 성능을 보장하는 E2E 음성인식 시스템 개발에 주력할 계획입니다.
설명가능한 인공지능(XAI) 기반 디지털 헬스케어 및 말장애 분석
설명가능한 인공지능(Explainable AI, XAI)은 인공지능 모델의 의사결정 과정을 투명하게 설명하고, 사용자가 결과를 신뢰할 수 있도록 하는 기술입니다. 본 연구실에서는 XAI를 디지털 헬스케어 분야, 특히 뇌졸중 후 마비말장애(Post-stroke Dysarthria) 환자의 음성 분석 및 진단에 적용하고 있습니다. 음향학적 자질을 활용하여 말장애의 유형과 오류 구간을 정밀하게 분석하고, 인공지능 기반의 자동화된 진단 및 평가 시스템을 개발하고 있습니다.
이 연구는 의료진이 환자의 말장애 정도를 객관적으로 평가하고, 치료 경과를 모니터링하는 데 큰 도움을 줍니다. 특히, 음성인식 기술과 결합된 XAI 기법은 환자의 발화 데이터를 실시간으로 분석하여, 오류 패턴과 원인을 시각적으로 제공함으로써 임상 현장에서의 활용도를 높이고 있습니다. 또한, 다양한 음향 특성 분석과 딥러닝 기반의 분류 모델을 통해 환자별 맞춤형 치료 방안 제시에 기여하고 있습니다.
향후 본 연구실은 XAI 기술을 더욱 고도화하여, 디지털 헬스케어뿐만 아니라 교육, 상담, 복지 등 다양한 사회적 약자 지원 분야로 확장할 계획입니다. 이를 통해 인공지능의 신뢰성과 투명성을 높이고, 실제 사회문제 해결에 기여하는 연구를 지속적으로 추진할 예정입니다.
Large Language Model(LLM) 및 L2 한국어 음성인식
최근 인공지능 분야에서 대규모 언어모델(Large Language Model, LLM)의 활용이 급격히 확대되고 있습니다. 본 연구실은 LLM을 활용하여 외국인 한국어 학습자의 발화에 대한 음성인식 및 말하기 평가 시스템을 개발하고 있습니다. LLM 기반의 평가 시스템은 단순히 음성인식 정확도에 그치지 않고, 발화 내용의 논리성, 언어 사용의 적절성, 문법적 정확성 등을 종합적으로 분석하여 학습자에게 피드백을 제공합니다.
특히, L2(Second Language) 한국어 학습자를 위한 음성인식 시스템은 다양한 억양, 발음 오류, 언어적 배경을 고려해야 하므로 기존의 한국어 음성인식보다 훨씬 높은 기술적 난이도를 요구합니다. 본 연구실은 대규모 다국적 발화 코퍼스 구축, 데이터 증강, 발음 오류 자동 분석, LLM 기반의 자동 채점 및 피드백 제공 등 다양한 연구를 수행하고 있습니다. 이를 통해 한국어 교육 현장에서의 실질적인 활용 가능성을 높이고 있습니다.
이러한 연구는 글로벌 시대에 한국어 교육의 디지털 전환을 촉진하고, 외국인 학습자의 언어 습득 효율성을 극대화하는 데 기여하고 있습니다. 앞으로도 본 연구실은 LLM과 음성인식의 융합을 통해 더욱 정교하고 신뢰성 높은 언어 평가 및 교육 지원 시스템을 개발할 계획입니다.
1
Survey on Deep Learning-based Speech Technologies in Voice Chatbot Systems
S. Ma, J. Oh, M. Kim, J.-H. Kim
KSII Transactions on Internet and Information Systems, 2025.05
2
Integration of WFST Language Model in Pre-trained Korean E2E ASR Model
J. Oh, E. Cho, J.-H. Kim
KSII Transactions on Internet and Information Systems, 2024.06
3
Deep Neural Networks-based Classification Methodologies of Speech, Audio and Music, and its Integration for Audio Metadata Tagging
H. Park, Y. Chung, J.-H. Kim
Journal of Web Engineering, 2023.04
1
[BK21 Four]세계 최고 수준의 실무형 빅데이터 융복합 인재 양성 사업단