Audio Mamba: Bidirectional State Space Model for Audio Representation Learning | 정준선 교수 연구실 | 한국과학기술원 전기및전자공학부

정준선 교수 연구실

서비스 플랜

연구실 검색

프로젝트 공고

정부 과제 추천

AI 기반 기업 서칭

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 29

·2024

Audio Mamba: Bidirectional State Space Model for Audio Representation Learning

Mehmet Hamza Erol, Arda Senocak, Jiu Feng, Joon Son Chung

IF 3.9IEEE Signal Processing Letters

초록

트랜스포머는 오디오 분류에서 CNN 기반 방법을 능가하며 빠르게 선호되는 선택이 되었다. 그러나 Audio Spectrogram Transformers(AST)는 자기어텐션(self-attention)으로 인해 이차적으로 스케일링한다. 이러한 이차적인 자기어텐션 비용을 제거하는 것은 매력적인 방향이다. 최근 Mamba와 같은 상태 공간 모델(SSMs)은 언어 및 비전 과제에서 그 가능성을 보여주었다. 본 연구에서는 오디오 분류 과제에서 자기어텐션에 의존할 필요가 있는지 여부를 탐구한다. 이를 위해 오디오 분류를 위한 최초의 자기어텐션이 없는 순수 SSM 기반 모델인 Audio Mamba(AuM)를 도입하여 이 질문에 답하고자 한다. 우리는 여섯 가지 서로 다른 벤치마크로 구성된 다양한 오디오 데이터셋에서 AuM을 평가하며, 잘 정립된 AST 모델과 비교하여 동등하거나 더 나은 성능을 달성함을 보인다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Computer scienceRepresentation (politics)Audio signalDigital audioAudio signal processingSpeech recognitionSpeech coding

타입

article

IF / 인용수

3.9 / 29

원문

https://doi.org/10.1109/lsp.2024.3483009

게재 연도

2024

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)