연구실에서 최근에 진행되고 있는 관심 연구 분야
1
End-to-End 방식의 음성인식 시스템
End-to-End(E2E) 방식의 음성인식 시스템은 전통적인 음성인식 시스템에서 요구되는 복잡한 전처리 및 후처리 과정을 최소화하고, 입력 음성 신호로부터 직접적으로 텍스트를 생성하는 혁신적인 접근법입니다. 본 연구실에서는 특히 한국어 음성인식에 특화된 E2E 모델을 개발하고 있으며, WFST(Weighted Finite-State Transducer)와의 결합을 통해 인식 성능과 속도를 동시에 향상시키는 방법론을 연구하고 있습니다. 이러한 접근은 다양한 환경에서의 실시간 음성인식에 매우 효과적이며, 실제 서비스 적용에 적합한 기술로 평가받고 있습니다. E2E 음성인식 시스템의 주요 장점은 데이터 기반의 학습을 통해 복잡한 음성-텍스트 매핑을 자동으로 최적화할 수 있다는 점입니다. 이를 위해 대규모 음성-텍스트 병렬 코퍼스를 활용하며, 딥러닝 기반의 CTC(Connectionist Temporal Classification), Attention, Transformer, Conformer 등 다양한 신경망 구조를 적용하고 있습니다. 또한, WFST를 활용한 언어모델 결합을 통해 인식 결과의 정확도를 높이고, 다양한 도메인에 맞는 커스터마이징이 가능합니다. 이러한 연구는 스마트폰, 자동차, 로봇 등 다양한 응용 분야에서 실시간 음성인식 서비스를 구현하는 데 핵심적인 역할을 하고 있습니다. 앞으로도 본 연구실은 한국어뿐만 아니라 다국어 환경, 저자원 언어, 특수 환경(잡음, 다화자 등)에서도 높은 성능을 보장하는 E2E 음성인식 시스템 개발에 주력할 계획입니다.
2
설명가능한 인공지능(XAI) 기반 디지털 헬스케어 및 말장애 분석
설명가능한 인공지능(Explainable AI, XAI)은 인공지능 모델의 의사결정 과정을 투명하게 설명하고, 사용자가 결과를 신뢰할 수 있도록 하는 기술입니다. 본 연구실에서는 XAI를 디지털 헬스케어 분야, 특히 뇌졸중 후 마비말장애(Post-stroke Dysarthria) 환자의 음성 분석 및 진단에 적용하고 있습니다. 음향학적 자질을 활용하여 말장애의 유형과 오류 구간을 정밀하게 분석하고, 인공지능 기반의 자동화된 진단 및 평가 시스템을 개발하고 있습니다. 이 연구는 의료진이 환자의 말장애 정도를 객관적으로 평가하고, 치료 경과를 모니터링하는 데 큰 도움을 줍니다. 특히, 음성인식 기술과 결합된 XAI 기법은 환자의 발화 데이터를 실시간으로 분석하여, 오류 패턴과 원인을 시각적으로 제공함으로써 임상 현장에서의 활용도를 높이고 있습니다. 또한, 다양한 음향 특성 분석과 딥러닝 기반의 분류 모델을 통해 환자별 맞춤형 치료 방안 제시에 기여하고 있습니다. 향후 본 연구실은 XAI 기술을 더욱 고도화하여, 디지털 헬스케어뿐만 아니라 교육, 상담, 복지 등 다양한 사회적 약자 지원 분야로 확장할 계획입니다. 이를 통해 인공지능의 신뢰성과 투명성을 높이고, 실제 사회문제 해결에 기여하는 연구를 지속적으로 추진할 예정입니다.
3
Large Language Model(LLM) 및 L2 한국어 음성인식
최근 인공지능 분야에서 대규모 언어모델(Large Language Model, LLM)의 활용이 급격히 확대되고 있습니다. 본 연구실은 LLM을 활용하여 외국인 한국어 학습자의 발화에 대한 음성인식 및 말하기 평가 시스템을 개발하고 있습니다. LLM 기반의 평가 시스템은 단순히 음성인식 정확도에 그치지 않고, 발화 내용의 논리성, 언어 사용의 적절성, 문법적 정확성 등을 종합적으로 분석하여 학습자에게 피드백을 제공합니다. 특히, L2(Second Language) 한국어 학습자를 위한 음성인식 시스템은 다양한 억양, 발음 오류, 언어적 배경을 고려해야 하므로 기존의 한국어 음성인식보다 훨씬 높은 기술적 난이도를 요구합니다. 본 연구실은 대규모 다국적 발화 코퍼스 구축, 데이터 증강, 발음 오류 자동 분석, LLM 기반의 자동 채점 및 피드백 제공 등 다양한 연구를 수행하고 있습니다. 이를 통해 한국어 교육 현장에서의 실질적인 활용 가능성을 높이고 있습니다. 이러한 연구는 글로벌 시대에 한국어 교육의 디지털 전환을 촉진하고, 외국인 학습자의 언어 습득 효율성을 극대화하는 데 기여하고 있습니다. 앞으로도 본 연구실은 LLM과 음성인식의 융합을 통해 더욱 정교하고 신뢰성 높은 언어 평가 및 교육 지원 시스템을 개발할 계획입니다.
4
음성합성(Text-to-Speech) 및 오디오 이벤트 검출
음성합성(Text-to-Speech, TTS) 기술은 텍스트 정보를 자연스러운 음성으로 변환하는 인공지능 기술로, 최근에는 신경망 기반의 음성합성 모델(Neural TTS)이 주류를 이루고 있습니다. 본 연구실에서는 Acoustic Model, Vocoder, E2E Model 등 최신 딥러닝 기반 음성합성 기술을 연구하며, 실제 서비스에 적용 가능한 고품질 음성합성 시스템을 개발하고 있습니다. 이를 통해 시각장애인, 고령자, 언어장애인 등 정보 접근성이 필요한 계층에 실질적인 도움을 제공하고 있습니다. 또한, 오디오 이벤트 검출(Sound Event Detection) 분야에서도 활발한 연구를 진행하고 있습니다. 영화, 동영상 등 다양한 멀티미디어 콘텐츠에서 음성을 인식하고, 유해성 이벤트를 자동으로 검출하여 등급 분류에 활용하는 기술을 개발하고 있습니다. Noise robust automatic speech recognition, 오디오 이벤트 분류, 다중 소스 환경에서의 신호 분리 등 다양한 응용 연구를 통해 미디어 안전성과 사용자 경험을 동시에 향상시키고 있습니다. 이러한 연구는 미디어 콘텐츠의 자동 등급 분류, 스마트 홈, 보안, IoT 등 다양한 산업 분야에서 활용될 수 있으며, 앞으로도 본 연구실은 음성합성 및 오디오 이벤트 검출 기술의 고도화와 실용화에 지속적으로 기여할 예정입니다.