Details

Title Разработка высокопроизводительной системы для сбора данных с удаленного источника по сети: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных»
Creators Хисматуллин Камиль Ильясович
Scientific adviser Молодяков Сергей Александрович
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint Санкт-Петербург, 2024
Collection Выпускные квалификационные работы; Общая коллекция
Subjects распределенная система сбора данных; веб-скрапинг; парсинг; горизонтальное масштабирование; плагины; distributed data collection system; web scraping; parsing; horizontal scaling; plugins
Document type Master graduation qualification work
File type PDF
Language Russian
Level of education Master
Speciality code (FGOS) 09.04.04
Speciality group (FGOS) 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2024/vr/vr24-3972
Rights Доступ по паролю из сети Интернет (чтение)
Additionally New arrival
Record key ru\spstu\vkr\33436
Record create date 8/29/2024

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Group Anonymous
Network Internet

Выпускная квалификационная работа посвящена исследованию подходов к организации высокопроизводительного сбора данных с веб-ресурсов. Описаны основные подходы к реализации веб-скрапинга и ее необходимые компоненты. Проведен обзор существующих распределенных систем по сбору данных, были описаны их преимущества и недостатки. Проведен обзор по подходящим для реализации веб-скрапинг системы библиотек. В рамках представленной работы была спроектирована архитектура высокопроизводительной распределенной системы сбора данных. Для удобства расширения возможностей системы используется поддержка плагинов, отдельного для каждого нового веб-ресурса. Система была реализована в программном средстве на примере сайта Авито Авто, были проанализированы проблемы в реализации и работе реализуемой системы сбора данных и были предложены варианты их решения. В результате был проведен тест производительности системы, на которой она показала достойный результат с учетом ограничений со стороны веб-ресурса. В ходе длительной эксплуатации системы деградации производительности не было обнаружено, что говорит о ее стабильности.

The masters thesis is devoted to the study of approaches to the organization of high-performance data collection from web resources. The main approaches to the implementation of web scraping and its necessary components are described. An overview of existing distributed data collection systems was conducted, their advantages and disadvantages were described. A review was conducted on libraries suitable for the implementation of web scraping systems. As part of the presented work, the architecture of a high-performance distributed data collection system was designed. For the convenience of expanding the systems capabilities, support for plug-ins is used, separate for each new web resource. The system was implemented in a software tool using the example of the Avito Auto website, problems in the implementation and operation of the implemented data collection system were analyzed and solutions were proposed. As a result, a performance test of the system was conducted, on which it showed a decent result, taking into account the limitations of the web resource. During the long-term operation of the system, no degradation of performance was detected, which indicates its stability.

Network User group Action
ILC SPbPU Local Network All
Read
Internet Authorized users SPbPU
Read
Internet Anonymous

Access count: 0 
Last 30 days: 0

Detailed usage statistics