트랜스포머는 오디오 분류에서 CNN 기반 방법을 능가하며 빠르게 선호되는 선택이 되었다. 그러나 Audio Spectrogram Transformers(AST)는 자기어텐션(self-attention)으로 인해 이차적으로 스케일링한다. 이러한 이차적인 자기어텐션 비용을 제거하는 것은 매력적인 방향이다. 최근 Mamba와 같은 상태 공간 모델(SSMs)은 언어 및 비전 과제에서 그 가능성을 보여주었다. 본 연구에서는 오디오 분류 과제에서 자기어텐션에 의존할 필요가 있는지 여부를 탐구한다. 이를 위해 오디오 분류를 위한 최초의 자기어텐션이 없는 순수 SSM 기반 모델인 Audio Mamba(AuM)를 도입하여 이 질문에 답하고자 한다. 우리는 여섯 가지 서로 다른 벤치마크로 구성된 다양한 오디오 데이터셋에서 AuM을 평가하며, 잘 정립된 AST 모델과 비교하여 동등하거나 더 나은 성능을 달성함을 보인다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.