Table | Card | RUSMARC | |
Allowed Actions: –
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group: Anonymous Network: Internet |
Annotation
Выпускная квалификационная работа магистра посвящена исследованию в области средств автоматического сбора данных с веб-ресурсов. Описаны подходы автоматизированного поиска и сбора данных с веб-ресурсов. Изучены существующие высокопроизводительные системы автоматизированного сбора данных, основанные на фреймворке Scrapy. Проведен обзор различных библиотек и фреймворков для реализации систем веб-скрапинга. В рамках данной работы описана высокопроизводительная и отказоустойчивая распределённая системы сбора данных с веб-ресурсов. Предложенный подход к организации вычислений заключается в использование системы оркестрации контейнеров Kubernetes, для балансировки нагрузки между элементами кластера и централизации управления. В качестве основного средства реализации веб-скраперов используется фреймворк Scrapy. В результат приведено сравнение скорости сбора данных с использованием простого приложения на базе Scrapy и разработанной системой, а также показаны результаты увеличения производительности за счет повышения количества рабочих узлов.
The master's final qualifying work is devoted to research in the field of means of automatic data collection from web resources. Approaches of automated search and collection of data from web resources are described. Existing high-performance automated data collection systems based on the Scrapy framework have been studied. An overview of various libraries and frameworks for the implementation of web scraping systems is carried out. As part of this work, a high-performance and fault-tolerant distributed system for collecting data from web resources is described. The proposed approach to organizing computations is to use the Kubernetes container orchestration system to balance the load between cluster elements and centralize management. The Scrapy framework is used as the main means of implementing web scrapers. The result is a comparison of the data collection speed using a simple Scrapy-based application and the developed system, and also shows the results of increasing productivity by increasing the number of worker nodes.
Document access rights
Network | User group | Action | ||||
---|---|---|---|---|---|---|
ILC SPbPU Local Network | All | |||||
Internet | Authorized users SPbPU | |||||
Internet | Anonymous |
Usage statistics
Access count: 41
Last 30 days: 1 Detailed usage statistics |