Детальная информация

Название: Метод распределенного и высокопроизводительного извлечения информации с web-ресурсов: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных»
Авторы: Эйзенах Денис Сергеевич
Научный руководитель: Никифоров Игорь Валерьевич
Другие авторы: Локшина Екатерина Геннадиевна
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2021
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: Интернет; скрапинг; распределенный сбор данных; отказоустойчивая система парсинга; горизонтальное масштабирование; web-scraping; distributed data collection; fail-safe parsing system; horizontal scaling
УДК: 004.738.5
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Код специальности ФГОС: 09.04.04
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
Ссылки: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2021/vr/vr21-891
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Дополнительно: Новинка

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Выпускная квалификационная работа магистра посвящена исследованию в области средств автоматического сбора данных с веб-ресурсов. Описаны подходы автоматизированного поиска и сбора данных с веб-ресурсов. Изучены существующие высокопроизводительные системы автоматизированного сбора данных, основанные на фреймворке Scrapy. Проведен обзор различных библиотек и фреймворков для реализации систем веб-скрапинга. В рамках данной работы описана высокопроизводительная и отказоустойчивая распределённая системы сбора данных с веб-ресурсов. Предложенный подход к организации вычислений заключается в использование системы оркестрации контейнеров Kubernetes, для балансировки нагрузки между элементами кластера и централизации управления. В качестве основного средства реализации веб-скраперов используется фреймворк Scrapy. В результат приведено сравнение скорости сбора данных с использованием простого приложения на базе Scrapy и разработанной системой, а также показаны результаты увеличения производительности за счет повышения количества рабочих узлов.

The master's final qualifying work is devoted to research in the field of means of automatic data collection from web resources. Approaches of automated search and collection of data from web resources are described. Existing high-performance automated data collection systems based on the Scrapy framework have been studied. An overview of various libraries and frameworks for the implementation of web scraping systems is carried out. As part of this work, a high-performance and fault-tolerant distributed system for collecting data from web resources is described. The proposed approach to organizing computations is to use the Kubernetes container orchestration system to balance the load between cluster elements and centralize management. The Scrapy framework is used as the main means of implementing web scrapers. The result is a comparison of the data collection speed using a simple Scrapy-based application and the developed system, and also shows the results of increasing productivity by increasing the number of worker nodes.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
Интернет Авторизованные пользователи (не СПбПУ)
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 1
За последние 30 дней: 0
Подробная статистика