Таблица | Карточка | RUSMARC | |
Разрешенные действия: –
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа: Анонимные пользователи Сеть: Интернет |
Аннотация
Выпускная квалификационная работа магистра посвящена исследованию в области средств автоматического сбора данных с веб-ресурсов. Описаны подходы автоматизированного поиска и сбора данных с веб-ресурсов. Изучены существующие высокопроизводительные системы автоматизированного сбора данных, основанные на фреймворке Scrapy. Проведен обзор различных библиотек и фреймворков для реализации систем веб-скрапинга. В рамках данной работы описана высокопроизводительная и отказоустойчивая распределённая системы сбора данных с веб-ресурсов. Предложенный подход к организации вычислений заключается в использование системы оркестрации контейнеров Kubernetes, для балансировки нагрузки между элементами кластера и централизации управления. В качестве основного средства реализации веб-скраперов используется фреймворк Scrapy. В результат приведено сравнение скорости сбора данных с использованием простого приложения на базе Scrapy и разработанной системой, а также показаны результаты увеличения производительности за счет повышения количества рабочих узлов.
The master's final qualifying work is devoted to research in the field of means of automatic data collection from web resources. Approaches of automated search and collection of data from web resources are described. Existing high-performance automated data collection systems based on the Scrapy framework have been studied. An overview of various libraries and frameworks for the implementation of web scraping systems is carried out. As part of this work, a high-performance and fault-tolerant distributed system for collecting data from web resources is described. The proposed approach to organizing computations is to use the Kubernetes container orchestration system to balance the load between cluster elements and centralize management. The Scrapy framework is used as the main means of implementing web scrapers. The result is a comparison of the data collection speed using a simple Scrapy-based application and the developed system, and also shows the results of increasing productivity by increasing the number of worker nodes.
Права на использование объекта хранения
Место доступа | Группа пользователей | Действие | ||||
---|---|---|---|---|---|---|
Локальная сеть ИБК СПбПУ | Все | |||||
Интернет | Авторизованные пользователи СПбПУ | |||||
Интернет | Анонимные пользователи |
Статистика использования
Количество обращений: 41
За последние 30 дней: 1 Подробная статистика |