Details

Title: Метод распределенного и высокопроизводительного извлечения информации с web-ресурсов: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных»
Creators: Эйзенах Денис Сергеевич
Scientific adviser: Никифоров Игорь Валерьевич
Other creators: Локшина Екатерина Геннадиевна
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2021
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: Интернет; скрапинг; распределенный сбор данных; отказоустойчивая система парсинга; горизонтальное масштабирование; web-scraping; distributed data collection; fail-safe parsing system; horizontal scaling
UDC: 004.738.5
Document type: Master graduation qualification work
File type: PDF
Language: Russian
Level of education: Master
Speciality code (FGOS): 09.04.04
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
Links: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2021/vr/vr21-891
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key: ru\spstu\vkr\13278

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Выпускная квалификационная работа магистра посвящена исследованию в области средств автоматического сбора данных с веб-ресурсов. Описаны подходы автоматизированного поиска и сбора данных с веб-ресурсов. Изучены существующие высокопроизводительные системы автоматизированного сбора данных, основанные на фреймворке Scrapy. Проведен обзор различных библиотек и фреймворков для реализации систем веб-скрапинга. В рамках данной работы описана высокопроизводительная и отказоустойчивая распределённая системы сбора данных с веб-ресурсов. Предложенный подход к организации вычислений заключается в использование системы оркестрации контейнеров Kubernetes, для балансировки нагрузки между элементами кластера и централизации управления. В качестве основного средства реализации веб-скраперов используется фреймворк Scrapy. В результат приведено сравнение скорости сбора данных с использованием простого приложения на базе Scrapy и разработанной системой, а также показаны результаты увеличения производительности за счет повышения количества рабочих узлов.

The master's final qualifying work is devoted to research in the field of means of automatic data collection from web resources. Approaches of automated search and collection of data from web resources are described. Existing high-performance automated data collection systems based on the Scrapy framework have been studied. An overview of various libraries and frameworks for the implementation of web scraping systems is carried out. As part of this work, a high-performance and fault-tolerant distributed system for collecting data from web resources is described. The proposed approach to organizing computations is to use the Kubernetes container orchestration system to balance the load between cluster elements and centralize management. The Scrapy framework is used as the main means of implementing web scrapers. The result is a comparison of the data collection speed using a simple Scrapy-based application and the developed system, and also shows the results of increasing productivity by increasing the number of worker nodes.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users SPbPU Read Print Download
-> Internet Anonymous

Usage statistics

stat Access count: 41
Last 30 days: 1
Detailed usage statistics