전상훈 교수 연구실
기본 정보
연구 분야
프로젝트
논문
구성원
읽는 시간 · 53초

병렬·비동기 웹 크롤링 성능 최적화

Performance Optimization of Web Crawlers via Parallel and Asynchronous Processing

연구 내용

병렬 처리와 비동기 처리를 기반으로 웹 크롤러의 실행 성능과 자원 사용 특성을 제어하는 연구

웹 데이터 수집에서 크롤러의 처리량과 안정성이 직접적인 병목으로 작용합니다. 본 연구는 정적·동적 웹 환경에서 동작하는 크롤러 아키텍처를 대상으로 병렬 처리와 비동기 처리 기법을 적용하여 실행 효율을 높이는 방향으로 수행합니다. 다양한 웹 페이지 구성에 대해 처리 시간, CPU 및 메모리 사용 특성을 비교함으로써 공정 변수에 따른 성능-자원 트레이드오프를 규명합니다. 이를 바탕으로 실사용 데이터 수집 작업에 적용 가능한 최적화 설계 원칙을 도출합니다.

관련 연구 성과

관련 논문

1

관련 특허

0

관련 프로젝트

0

연구 흐름

초기에는 정적·동적 페이지를 대상으로 하는 기존 크롤러들의 실행 구조를 정리하고, 병렬 처리와 비동기 처리의 효과를 동일 조건에서 비교하는 실험 설계를 확보했습니다. 이후 웹 애플리케이션의 구성 요소와 로딩 양식 차이에 따라 나타나는 성능 변화 양상을 체계적으로 분류하여, 처리량과 자원 사용의 관계를 해석했습니다. 최근에는 크롤러별 구조 차이를 반영해 최적화 전략을 선택하는 기준을 정리하는 연구를 수행했습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

  • 대규모 웹 데이터 수집 파이프라인
  • 가격 비교 서비스 데이터 갱신
  • 웹 아카이빙용 크롤링 엔진
  • 검색 품질 평가 데이터 구축
  • RSS 수집 및 미디어 메타데이터 생성
  • 웹 애플리케이션 로딩 분석
  • 크롤러 자원 할당 정책 수립
  • 실시간 페이지 모니터링 시스템
  • SEO 분석용 수집 자동화
  • 데이터 수집 비용 최적화

관련 논문

구분

제목

1

Performance Optimization of Web Crawlers via Parallel and Asynchronous Processing

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.