동기: 현재 추출형 질의응답(extractive question answering, EQA)에 관한 연구들은 단일 스팬 추출(single-span extraction) 설정을 모델링해 왔다. 이 설정에서는 특정 질의-지문 쌍에 대해 하나의 정답 스팬이 예측해야 할 레이블이 된다. 일반 도메인 EQA에서 이 설정은 대부분의 질문이 단일 스팬으로 답할 수 있기 때문에 자연스럽다. 일반 도메인 EQA 모델을 따르는 현재의 생의의학 분야 EQA(BioEQA) 모델들은 후처리 단계를 포함하여 단일 스팬 추출 설정을 사용한다. 결과: 본 논문에서는 일반 도메인과 생의의학 도메인에 걸친 질의 분포를 분석하고, 생의의학 질문이 사실형(factoid-type) 답(단일 답변)보다 목록형(list-type) 답(복수 답변)을 요구할 가능성이 더 높음을 발견하였다. 이는 모델이 하나의 질의에 대해 여러 답변을 생성할 수 있어야 함을 의미한다. 본 예비 연구에 기반하여, 우리는 BioEQA를 위한 서열 태깅(sequence tagging) 접근법을 제안하며, 이는 다중 스팬 추출(multi-span extraction) 설정이다. 우리의 접근법은 정답으로 사용되는 구(phrase)의 수가 가변적인 질의를 직접적으로 다루며, 질의에 대한 답변의 개수를 훈련 데이터로부터 학습하여 결정할 수 있다. BioASQ 7b 및 8b의 목록형(list-type) 질문에 대한 실험 결과는 후처리 단계를 필요로 하지 않으면서도 기존의 성능이 가장 우수한 모델들을 능가하였다. 이용 가능성과 구현: 소스 코드와 자원은 https://github.com/dmis-lab/SeqTagQA 에서 다운로드할 수 있도록 무료로 제공된다. 추가 정보: 추가 데이터는 Bioinformatics 온라인에서 이용 가능하다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.