Details
Title | Разработка высокопроизводительной системы для сбора данных с удаленного источника по сети: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных» |
---|---|
Creators | Хисматуллин Камиль Ильясович |
Scientific adviser | Молодяков Сергей Александрович |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Imprint | Санкт-Петербург, 2024 |
Collection | Выпускные квалификационные работы; Общая коллекция |
Subjects | распределенная система сбора данных; веб-скрапинг; парсинг; горизонтальное масштабирование; плагины; distributed data collection system; web scraping; parsing; horizontal scaling; plugins |
Document type | Master graduation qualification work |
File type | |
Language | Russian |
Level of education | Master |
Speciality code (FGOS) | 09.04.04 |
Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
DOI | 10.18720/SPBPU/3/2024/vr/vr24-3972 |
Rights | Доступ по паролю из сети Интернет (чтение) |
Additionally | New arrival |
Record key | ru\spstu\vkr\33436 |
Record create date | 8/29/2024 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Выпускная квалификационная работа посвящена исследованию подходов к организации высокопроизводительного сбора данных с веб-ресурсов. Описаны основные подходы к реализации веб-скрапинга и ее необходимые компоненты. Проведен обзор существующих распределенных систем по сбору данных, были описаны их преимущества и недостатки. Проведен обзор по подходящим для реализации веб-скрапинг системы библиотек. В рамках представленной работы была спроектирована архитектура высокопроизводительной распределенной системы сбора данных. Для удобства расширения возможностей системы используется поддержка плагинов, отдельного для каждого нового веб-ресурса. Система была реализована в программном средстве на примере сайта Авито Авто, были проанализированы проблемы в реализации и работе реализуемой системы сбора данных и были предложены варианты их решения. В результате был проведен тест производительности системы, на которой она показала достойный результат с учетом ограничений со стороны веб-ресурса. В ходе длительной эксплуатации системы деградации производительности не было обнаружено, что говорит о ее стабильности.
The masters thesis is devoted to the study of approaches to the organization of high-performance data collection from web resources. The main approaches to the implementation of web scraping and its necessary components are described. An overview of existing distributed data collection systems was conducted, their advantages and disadvantages were described. A review was conducted on libraries suitable for the implementation of web scraping systems. As part of the presented work, the architecture of a high-performance distributed data collection system was designed. For the convenience of expanding the systems capabilities, support for plug-ins is used, separate for each new web resource. The system was implemented in a software tool using the example of the Avito Auto website, problems in the implementation and operation of the implemented data collection system were analyzed and solutions were proposed. As a result, a performance test of the system was conducted, on which it showed a decent result, taking into account the limitations of the web resource. During the long-term operation of the system, no degradation of performance was detected, which indicates its stability.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
Access count: 0
Last 30 days: 0