Google Scholar
Language & AI 융합학부 박정식
Google Scholar 연구실은 음성 인식, 음성 기반 제어, 감정 및 악센트 인식, 음향 이벤트 감지 등 인공지능 기반 음성 및 오디오 신호 처리 분야에서 선도적인 연구를 수행하고 있습니다. 본 연구실은 무인 항공기, 스마트 디바이스, 차량, 로봇 등 다양한 응용 환경에서 실시간으로 동작 가능한 음성 인식 시스템을 개발하고, 실제 환경에서의 적용 가능성을 높이기 위해 노이즈 저감, 다채널 트리거, 음성 구간 검출 등 다양한 핵심 기술을 연구하고 있습니다.
특히, 감정 및 악센트 인식 분야에서는 딥러닝 기반의 모델 적응, 도메인 적대 신경망, 지식 증류 등 최신 인공지능 기법을 도입하여, 데이터 부족이나 다양한 발화 환경에서도 높은 인식률을 달성하고 있습니다. 이러한 연구는 개인화 가상 비서, 다국어 음성 인식, 감성 인터랙션 로봇 등 차세대 인공지능 서비스의 핵심 기술로 활용될 수 있습니다.
음향 이벤트 감지 및 오디오 신호 처리 분야에서도 연구실은 실시간 이벤트 감지, 음성-음악 분리, 잡음 환경에서의 신호 복원 등 다양한 기술을 개발하고 있습니다. 이로써 스마트 시티, 공공 안전, IoT 기반 감시 시스템 등 사회적으로 중요한 분야에 혁신적인 솔루션을 제공하고 있습니다.
연구실은 다수의 특허 출원과 국내외 저명 학술지 및 학회 발표를 통해 연구 성과를 인정받고 있으며, 정보통신기획평가원, 한국연구재단, 국방과학연구소 등 다양한 기관과의 협력 프로젝트를 수행하고 있습니다. 또한, 실제 환경에서의 시뮬레이션 및 실험을 통해 기술의 신뢰성과 실용성을 지속적으로 검증하고 있습니다.
앞으로도 Google Scholar 연구실은 인공지능 기반 음성 및 오디오 신호 처리 분야에서 혁신적인 연구를 이어가며, 차세대 지능형 시스템의 발전에 기여할 것입니다.
Emotional Speech Recognition
Abnormal Speech Detection
Personalized Virtual Assistant
음성 인식 및 음성 기반 제어 시스템
본 연구실은 음성 인식 기술과 이를 기반으로 한 다양한 제어 시스템 개발에 중점을 두고 있습니다. 특히, 무인 항공기(UAV) 및 다중 디바이스 환경에서의 음성 기반 제어 시스템을 연구하여, 실제 군사 및 산업 현장에서 효율적으로 적용할 수 있는 솔루션을 제시하고 있습니다. 음성 인식 시스템은 기존의 버튼 방식 제어의 한계를 극복하고, 사용자의 자연스러운 명령을 실시간으로 인식하여 다양한 장치와 시스템을 제어할 수 있도록 설계되었습니다.
연구실에서는 환경 소음이 많은 실외 및 차량 내 환경에서도 높은 인식률을 유지할 수 있는 노이즈 저감 기법, 다채널 보이스 트리거 시스템, 그리고 음성 구간 검출 및 필터링 알고리즘을 개발하고 있습니다. 또한, 음성 명령의 신뢰도 평가와 다중 디바이스 매칭을 위한 후처리 기술을 통해 실제 현장에서의 실용성을 높이고 있습니다. 이러한 기술은 특허로도 출원되어, 연구실의 기술적 우수성을 입증하고 있습니다.
음성 인식 기반 제어 시스템은 무인기, 스마트 디바이스, 차량, 로봇 등 다양한 응용 분야에 적용될 수 있으며, 향후 인공지능 기반의 자율 시스템과의 융합을 통해 더욱 발전할 것으로 기대됩니다. 연구실은 실제 시뮬레이션 및 현장 실험을 통해 기술의 신뢰성과 효율성을 지속적으로 검증하고 있습니다.
감정 및 악센트 인식 기반의 지능형 음성 처리
감정 인식 및 악센트 인식 기술은 인간-컴퓨터 상호작용(HCI)에서 중요한 역할을 하며, 본 연구실은 이러한 분야에서 선도적인 연구를 수행하고 있습니다. 감정이 담긴 음성이나 다양한 악센트가 포함된 음성 데이터를 효과적으로 인식하기 위해, 딥러닝 기반의 음향 모델 적응, 도메인 적대 신경망(DANN), 지식 증류(knowledge distillation) 등 최신 인공지능 기법을 적극적으로 도입하고 있습니다.
특히, 감정 음성 인식에서는 데이터 부족 문제를 해결하기 위해 소량의 감정 음성 데이터로도 높은 인식률을 달성할 수 있는 모델 적응 및 파라미터 최적화 방법을 개발하고 있습니다. 악센트 인식 분야에서는 다양한 영어 악센트(호주, 캐나다, 영국, 인도 등)에 대해 도메인 적대 신경망을 활용하여, 표준 발음과의 분포 차이를 효과적으로 줄이고, 실제 서비스 환경에서의 인식 성능을 크게 향상시키고 있습니다.
이러한 연구는 개인화 가상 비서, 다국어 음성 인식 시스템, 감성 인터랙션 로봇 등 다양한 응용 분야에 적용될 수 있습니다. 연구실은 실제 음성 데이터와 다양한 환경에서의 실험을 통해, 감정 및 악센트 인식 기술의 실용성과 확장성을 지속적으로 검증하고 있습니다.
음향 이벤트 감지 및 오디오 신호 처리
본 연구실은 음향 이벤트 감지와 오디오 신호 처리 분야에서도 활발한 연구를 진행하고 있습니다. 기존의 CCTV 기반 영상 감시 시스템의 한계를 극복하기 위해, 음향 센서를 활용한 실시간 이벤트 감지 기술을 개발하고 있습니다. 이 기술은 비상 상황이나 이상 음향(예: 비명, 경보음 등)을 신속하게 감지하여, 보다 지능적이고 신뢰성 높은 감시 시스템을 구현하는 데 기여하고 있습니다.
음향 이벤트 감지 연구에서는 CNN, LSTM 등 딥러닝 기반의 오디오 이벤트 분류 모델을 활용하여, 다양한 환경에서 발생하는 복잡한 음향 신호를 효과적으로 분류하고 인식합니다. 또한, 음성-음악 혼재 환경에서의 음성 분리, 단일 채널 블라인드 소스 분리, 잡음 환경에서의 음성 신호 복원 등 오디오 신호 처리 전반에 걸친 연구도 수행하고 있습니다. 이러한 기술은 스마트 시티, 공공 안전, IoT 기반 감시 시스템 등 다양한 분야에 적용될 수 있습니다.
연구실은 실제 환경에서 수집한 음향 데이터를 기반으로, 실시간 감지 및 분류 성능을 지속적으로 개선하고 있으며, 관련 특허와 논문을 통해 연구 성과를 국내외에 널리 알리고 있습니다.
1
The testis isoform of the phosphorylase kinase catalytic subunit (PhK-T) plays a critical role in regulation of glycogen mobilization in developing lung
Liu, Li, Rannels, Stephen R., Falconieri, Mary, Phillips, Karen S., Wolpert, Ellen B., Weaver, Timothy E.
Journal of Biological Chemistry, 1996
2
A paper that you need to read
A Author, J Doe, J Smith, S Else
Some Journal …, 2014
1
K-컨텐츠 세계화를 위한 자연어처리 기술 기반 대화형 AI 전문 번역 플랫폼 개발
2
사용자 특성 심층신경망 학습을 통한 개인화 가상 비서 시스템 프로토타입 개발
3
자연언어를 이용한 유/무인기 임무명령 전송기술 연구