본 연구의 최종 목표는 공통의 관심 영역으로부터 여러 방향으로 수집된 영상/음향 데이터를 입력받았을 때, 다방향 영상·음향 기반의 음원 분리/로컬라이제이션 (multi-faceted audio-visual source separation and localization)을 수행할 수 있는 딥러닝 기반 모델을 개발하는 것임.
신호처리
다방향 영상·음향
음원 분리
소스 로컬라이제이션
딥러닝
2
주관|
2021년 2월-2024년 2월
|183,612,000원
딥러닝 기반의 다중음원 오디오에 대한 음원선별적 편집 모델 연구
연구목표 달성을 위해 다음 세부 모델 및 프레임워크를 연구/개발함:
- 다중음원 데이터셋 기반 훈련 프레임워크 (다중음원 데이터셋은 음원 별 오디오가 제공하지 않는다고 가정)
- 잠재 음원성분 분석모델
- Language Model 기반 편집명령 해석모델
- 선별적 편집을 위한 Attention 기반 변조모델
딥러닝 기반의 음원선별적 편집 모델 학습을 위한 세부연구 내용은 다음과 같음.
- 세부연구 1: 다중음원 데이터셋 기반 훈련 프레임워크 연구 -
음원선별적 편집을 위한 데이터셋은 존재하지 않는 것으로 파악됨. 이러한 데이터를 on-the-fly로 생성하여 학습하는 다중음원 데이터셋 기반 훈련 프레임워크를 개발함.
- 세부연구 2: 잠재 음원성분 분석 기반 음원선별적 편집 모델 연구 -
잠재 음원성분 분석 기법을 세부연구 1의 프레임워크에 추가하여, 음원을 구성하는 세분된 성분을 attention 기반으로 추출하여 편집 대상 음원에 대한 선별 능력을 향상시킴. 또한, 전문지식이 없는 사용자를 위해 텍스트 기반 명령을 통한 음원선별적 편집도 제공함.
본 과제는 신산업분야에 특화된 디자인-엔지니어링 석·박사 전문인력을 체계적으로 양성하고, 기업과 대학이 함께 실무형 교육을 운영하는 컨소시엄 구축 연구임.
연구 목표는 768명 인력양성, 8개 대학-78개 기업-13개 글로벌 네트워크 기반 공유형 교육역량 확보, 글로벌 TOP3 디자인 경쟁력 확보임. 핵심 연구 내용은 IoT, 로봇, 모빌리티, AI, AR/VR 등 신기술 융합 디자인 교과과정 개발, 산업계 수요 도출 후 산·학 연계 프로젝트 수행, 현장 실무 중심 단기 집중 교육, 고용연계 및 만족도·취업률 환류시스템 구축임. 기대효과는 디자인기술력 및 산업경쟁력 향상, 우수 여성·지역인재의 취·창업 역량 강화, 디자인-엔지니어링 전문기술 확보, 창직·신산업 창출형 인재 확보임.
신경망 기반 스펙트로그램 변환 블록 개발을 위해, 첫째로 Time-Invariant feature 강화 기반 변환 스펙트로그램 변환 기법 연구를 진행하여 음향신호의 고유특성을 분석하고, 둘째로 Self-Attention 기반 잠재 음원표상 변환 기법을 연구하여 음원 간 상호간섭 문제를 해소함. 마지막으로 음원분리, 음성강화, 자동악보생성에 제안 모델을 적용하여, 모델의 효용성 검증을 위한 실험평가를 진행함.