라벨 조건부 소스 분리는 입력 심볼로 지정된 목표 소스를 입력 혼합 트랙으로부터 추출한다. 최근 제안된 라벨 조건부 소스 분리 모델인 Latent Source Attentive Frequency Transformation (LaSAFT)-Gated Point-Wise Convolutional Modulation (GPoCM)-Net은 LaSAFT라는 잠재 소스 분석을 위한 블록을 도입하였다. LaSAFT 블록을 활용하여, 이 모델은 MUSDB18 벤치마크의 여러 과제에서 최첨단 성능을 달성하였다. 본 논문은 자기 조건화(self-conditioning) 방법을 활용하여 LaSAFT 블록을 향상시킨다. 기존 방법은 목표 소스 심볼과 잠재 소스 사이의 상징적 관계만 고려하고 오디오 콘텐츠를 무시하는 반면, 새로운 접근법은 오디오 콘텐츠 또한 고려한다. 향상된 블록은 라벨과 입력 오디오 특징 맵에 대해 주의(attention) 마스크 조건화를 수행한다. 여기에서는, 향상된 LaSAFT 블록을 사용하는 조건부 U-Net이 기존 모델보다 우수한 성능을 보임을 입증한다. 또한, 본 모델이 약간의 수정으로 오디오-쿼리 기반 분리를 수행할 수 있음을 보인다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.