매년 증가하는 논문의 양으로 인해 연구자들이 자신의 연구에 맞는 참고문헌을 찾는 데 어려움을 겪고 있다. 이를 해결하기 위해 대규모 학술 데이터를 사용한 문맥 학습 기반 학술 참고문헌 추천 시스템을 제안한다. 기존의 콘텐츠 기반 추천 시스템은 논문의 표면적인 단어 유사성에 의존하는 반면, 본 시스템은 T5와 BERT 모델을 활용하여 논문의 문맥적 의미를 포착한다. 또한, Apache Spark와 TorchServe를 사용해 대규모 데이터를 분산 처리하며, 임베딩된 데이터는 LSTM 모델의 학습 데이터로 사용되어 입력된 논문의 참고문헌을 예측하는 방식으로 훈련된다. 훈련된 모델은 입력된 논문의 기존 참고문헌과 일치하는 개수를 비교하여 정확도를 측정하였다. 기존의 TF-IDF 콘텐츠 추천 시스템과 비교하여 6~19%의 정확도 개선을 이뤘다. 이러한 정확도 개선은 연구자들이 신속하고 정확하게 필요한 참고문헌을 찾아내어, 연구 시간을 단축하고 연구의 질을 높일 수 있다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.