인터넷의 급속한 발전으로 인해 방대한 양의 데이터가 생성되고 있으며, 다양한 유형의 정보에 대한 접근성이 높아지고 있다. 그 결과 데이터를 수집, 저장, 처리, 예측하는 빅데이터 분석의 중요성이 점차 커지고 있다. 웹 크롤러는 특정 웹페이지로부터 데이터를 추출하기 위한 도구로서 주목을 받아 왔다. 이들은 가격 비교 쇼핑, 검색 엔진 최적화(Search Engine Optimization, SEO), 리치 사이트 요약(Rich Site Summary, RSS) 집계 등 다양한 분야에서 활용된다. 서로 다른 유형의 웹 크롤러는 정적 또는 동적 크롤링 방식을 기반으로 한다. 대표적인 웹 크롤러로는 정적 웹페이지 또는 동적 웹페이지를 효과적으로 처리하도록 설계된 Scrapy, Selenium, BeautifulSoup, Playwright가 있다. 본 논문에서는 이러한 크롤러의 실행 성능을 향상시키기 위해 병렬 및 비동기 처리의 두 가지 튜닝 기법을 적용하는 데 초점을 둔다. 성능 평가를 위해 4가지 핵심 지표인 이미지당 시간(Time per Image, TPI), 초당 이미지 수(Images per Second, IPS), CPU 활용률, 메모리 사용량을 사용하였다. 다양한 웹페이지 구성에 대해 통제된 실험을 수행함으로써, 각 튜닝 방법이 서로 다른 크롤러 아키텍처의 실행 효율성과 시스템 자원 사용에 미치는 영향을 보여준다. 본 연구 결과는 성능과 자원 효율성 간의 실질적인 절충 관계를 부각하며, 실제 데이터 수집 작업에 크롤러 최적화 전략을 적용하는 데 유용한 통찰을 제공한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.