연구 영역

대표 연구 분야

연구실에서 최근에 진행되고 있는 관심 연구 분야

1

음성 신호처리 및 인공지능 기반 음성 인식

장준혁 연구실은 음성 신호처리와 인공지능 기술을 융합하여 차세대 음성 인식 및 음성 이해 시스템을 연구합니다. 본 연구실은 음성 신호의 잡음 제거, 음성 대역폭 확장, 음성 끝점 검출, 음성 품질 향상 등 다양한 음성 신호처리 기술을 개발해왔으며, 최근에는 딥러닝 및 강화학습 기반의 음성 인식 모델을 적극적으로 도입하고 있습니다. 특히, 대규모 음성 데이터셋을 활용한 사전학습(pre-training)과 소량의 레이블 데이터로도 높은 성능을 달성할 수 있는 연속 학습(continual learning) 프레임워크를 개발하여 실제 환경에서의 음성 인식 성능을 극대화하고 있습니다. 음성 인식 분야에서는 트랜스포머, 컨볼루션 신경망, 순환 신경망 등 다양한 딥러닝 구조를 활용하여 한국어, 영어 등 다국어 음성 인식 시스템을 구축하고 있습니다. 또한, 음성-텍스트 쌍 데이터가 부족한 환경에서도 효과적으로 학습할 수 있는 반지도학습(semi-supervised learning), 자기지도학습(self-supervised learning) 기법을 적용하여 데이터 효율성을 높이고 있습니다. 최근에는 화자 적응, 개인화 음성 인식, 멀티모달 음성 인식 등 사용자의 특성과 다양한 입력 신호를 반영한 맞춤형 음성 인식 기술도 활발히 연구 중입니다. 연구실은 실제 산업 현장에서 요구되는 실시간 음성 인식, 모바일 및 임베디드 환경에서의 경량화 모델, 잡음 및 잔향 환경에서의 강인한 음성 인식 등 다양한 응용 분야에 기술을 적용하고 있습니다. 이를 위해 음성 신호처리와 인공지능 모델의 융합, 데이터 증강, 모델 경량화, 하드웨어 최적화 등 다각도의 연구를 수행하고 있으며, 국내외 특허 및 논문 발표, 산학협력 프로젝트를 통해 연구 성과를 적극적으로 확산하고 있습니다.

2

딥러닝 기반 음성 합성 및 음성 품질 향상 기술

본 연구실은 딥러닝 기반의 음성 합성(Text-to-Speech, TTS) 및 음성 품질 향상 기술 개발에 집중하고 있습니다. 최근에는 비자동회귀(non-autoregressive) 방식의 음성 합성 모델, 적대적 학습(Generative Adversarial Network, GAN), 확산 모델(Diffusion Model) 등 최신 생성형 AI 기법을 음성 합성에 적용하여, 자연스러운 음질과 빠른 합성 속도를 동시에 달성하는 연구를 진행하고 있습니다. 또한, 화자 임베딩(speaker embedding)과 스타일 임베딩(style embedding) 기술을 활용하여 다화자, 다국어, 감정 표현이 가능한 음성 합성 시스템을 개발하고 있습니다. 음성 품질 향상 분야에서는 패킷 손실 은닉(Packet Loss Concealment), 잡음 및 에코 제거, 잔향 제거, 대역폭 확장 등 다양한 음성 품질 저하 요인을 극복하기 위한 딥러닝 기반 알고리즘을 연구합니다. 특히, 실제 통신 환경에서 발생하는 다양한 왜곡과 손실을 효과적으로 복원할 수 있는 실시간 음성 복원 기술, 멀티채널 신호를 활용한 공간 정보 보존형 잡음 제거, 주파수-시간 도메인 통합 모델 등 혁신적인 접근법을 제시하고 있습니다. 이러한 연구는 음성 통신, 스마트 스피커, 인공지능 비서, 원격 회의, 자동차 음성 인터페이스 등 다양한 산업 분야에 적용되고 있습니다. 연구실은 실제 응용 환경에서의 성능 검증과 상용화를 목표로, 국내외 기업 및 연구기관과의 협력, 특허 출원, 국제 학회 논문 발표 등 활발한 산학연 활동을 전개하고 있습니다.

3

음향 신호 기반 환경 인지 및 음향 사건 분류

장준혁 연구실은 음향 신호를 활용한 환경 인지(Acoustic Scene Classification) 및 음향 사건 검출(Sound Event Detection) 분야에서도 선도적인 연구를 수행하고 있습니다. 다양한 도시 및 실내외 환경에서 발생하는 복잡한 음향 신호를 분석하여, 환경의 종류(예: 거리, 공원, 실내 등)나 특정 사건(예: 벨소리, 차량 경적, 대화 등)을 자동으로 분류하고 검출하는 기술을 개발하고 있습니다. 이를 위해 컨볼루션 신경망(CNN), 순환 신경망(RNN), 트랜스포머 등 다양한 딥러닝 모델과 데이터 증강, 마스킹, 멀티모달 융합 기법을 적용하고 있습니다. 특히, 데이터 부족 문제를 해결하기 위한 다중 직사각형 역마스킹(Multi-Rectangle Inverse Masking, MRIM), 클래스 활성화 맵 기반 데이터 증강(Class Activation Mapping, CAM) 등 혁신적인 데이터 증강 기법을 개발하여 모델의 일반화 성능을 크게 향상시키고 있습니다. 또한, 음성 및 음향 신호뿐만 아니라 레이더, 영상 등 다양한 센서 데이터를 융합한 멀티모달 환경 인지 시스템도 연구 중입니다. 이러한 기술은 스마트 시티, 자율주행, IoT, 보안 감시, 헬스케어 등 다양한 분야에 적용될 수 있습니다. 연구실은 국내외 음향 인지 관련 대회(DCASE 등)에서 우수한 성과를 거두고 있으며, 실제 산업 현장에 적용 가능한 경량화 모델, 실시간 분류 시스템, 소량 데이터 기반 학습 등 실용적인 연구도 병행하고 있습니다. 또한, 음향 신호 기반의 감정 인식, 비접촉식 생체 신호 분석, 차량 진단 등 응용 분야를 지속적으로 확장하고 있습니다.