전상훈 교수 연구실
기본 정보
연구 분야
프로젝트
논문
구성원
article|
인용수 0
·2025
Performance Optimization of Web Crawlers via Parallel and Asynchronous Processing
Min-Sun Kim, Sanghoon Jeon
IF 1.2 (2025) KSII Transactions on Internet and Information Systems
초록

인터넷의 급속한 발전으로 인해 방대한 양의 데이터가 생성되고 있으며, 다양한 유형의 정보에 대한 접근성이 높아지고 있다. 그 결과 데이터를 수집, 저장, 처리, 예측하는 빅데이터 분석의 중요성이 점차 커지고 있다. 웹 크롤러는 특정 웹페이지로부터 데이터를 추출하기 위한 도구로서 주목을 받아 왔다. 이들은 가격 비교 쇼핑, 검색 엔진 최적화(Search Engine Optimization, SEO), 리치 사이트 요약(Rich Site Summary, RSS) 집계 등 다양한 분야에서 활용된다. 서로 다른 유형의 웹 크롤러는 정적 또는 동적 크롤링 방식을 기반으로 한다. 대표적인 웹 크롤러로는 정적 웹페이지 또는 동적 웹페이지를 효과적으로 처리하도록 설계된 Scrapy, Selenium, BeautifulSoup, Playwright가 있다. 본 논문에서는 이러한 크롤러의 실행 성능을 향상시키기 위해 병렬 및 비동기 처리의 두 가지 튜닝 기법을 적용하는 데 초점을 둔다. 성능 평가를 위해 4가지 핵심 지표인 이미지당 시간(Time per Image, TPI), 초당 이미지 수(Images per Second, IPS), CPU 활용률, 메모리 사용량을 사용하였다. 다양한 웹페이지 구성에 대해 통제된 실험을 수행함으로써, 각 튜닝 방법이 서로 다른 크롤러 아키텍처의 실행 효율성과 시스템 자원 사용에 미치는 영향을 보여준다. 본 연구 결과는 성능과 자원 효율성 간의 실질적인 절충 관계를 부각하며, 실제 데이터 수집 작업에 크롤러 최적화 전략을 적용하는 데 유용한 통찰을 제공한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Asynchronous communicationWeb crawlerWeb applicationParallel processing
타입
article
IF / 인용수
1.2 / 0
게재 연도
2025

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.