Разработка высокопроизводительной системы для сбора данных с удаленного источника по сети: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных»

Хисматуллин, Камиль Ильясович

Details

Title	Разработка высокопроизводительной системы для сбора данных с удаленного источника по сети: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных»
Creators	Хисматуллин Камиль Ильясович
Scientific adviser	Молодяков Сергей Александрович
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint	Санкт-Петербург, 2024
Collection	Выпускные квалификационные работы; Общая коллекция
Subjects	распределенная система сбора данных; веб-скрапинг; парсинг; горизонтальное масштабирование; плагины; distributed data collection system; web scraping; parsing; horizontal scaling; plugins
Document type	Master graduation qualification work
File type	PDF
Language	Russian
Level of education	Master
Speciality code (FGOS)	09.04.04
Speciality group (FGOS)	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2024/vr/vr24-3972
Rights	Доступ по паролю из сети Интернет (чтение)
Additionally	New arrival
Record key	ru\spstu\vkr\33436
Record create date	8/29/2024

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Выпускная квалификационная работа посвящена исследованию подходов к организации высокопроизводительного сбора данных с веб-ресурсов. Описаны основные подходы к реализации веб-скрапинга и ее необходимые компоненты. Проведен обзор существующих распределенных систем по сбору данных, были описаны их преимущества и недостатки. Проведен обзор по подходящим для реализации веб-скрапинг системы библиотек. В рамках представленной работы была спроектирована архитектура высокопроизводительной распределенной системы сбора данных. Для удобства расширения возможностей системы используется поддержка плагинов, отдельного для каждого нового веб-ресурса. Система была реализована в программном средстве на примере сайта Авито Авто, были проанализированы проблемы в реализации и работе реализуемой системы сбора данных и были предложены варианты их решения. В результате был проведен тест производительности системы, на которой она показала достойный результат с учетом ограничений со стороны веб-ресурса. В ходе длительной эксплуатации системы деградации производительности не было обнаружено, что говорит о ее стабильности.

The masters thesis is devoted to the study of approaches to the organization of high-performance data collection from web resources. The main approaches to the implementation of web scraping and its necessary components are described. An overview of existing distributed data collection systems was conducted, their advantages and disadvantages were described. A review was conducted on libraries suitable for the implementation of web scraping systems. As part of the presented work, the architecture of a high-performance distributed data collection system was designed. For the convenience of expanding the systems capabilities, support for plug-ins is used, separate for each new web resource. The system was implemented in a software tool using the example of the Avito Auto website, problems in the implementation and operation of the implemented data collection system were analyzed and solutions were proposed. As a result, a performance test of the system was conducted, on which it showed a decent result, taking into account the limitations of the web resource. During the long-term operation of the system, no degradation of performance was detected, which indicates its stability.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Access count: 0
Last 30 days: 0

Detailed usage statistics