Метод распределенного и высокопроизводительного извлечения информации с web-ресурсов: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных» = Method of distributed and high-performance retrieval of information from web resources

Эйзенах, Денис Сергеевич

Детальная информация

Название	Метод распределенного и высокопроизводительного извлечения информации с web-ресурсов: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных» = Method of distributed and high-performance retrieval of information from web resources
Авторы	Эйзенах Денис Сергеевич
Научный руководитель	Никифоров Игорь Валерьевич
Другие авторы	Локшина Екатерина Геннадиевна
Организация	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения	Санкт-Петербург, 2021
Коллекция	Выпускные квалификационные работы ; Общая коллекция
Тематика	Интернет ; скрапинг ; распределенный сбор данных ; отказоустойчивая система парсинга ; горизонтальное масштабирование ; web-scraping ; distributed data collection ; fail-safe parsing system ; horizontal scaling
УДК	004.738.5
Тип документа	Выпускная квалификационная работа магистра
Язык	Русский
Уровень высшего образования	Магистратура
Код специальности ФГОС	09.04.04
Группа специальностей ФГОС	090000 - Информатика и вычислительная техника
Ссылки	Отзыв руководителя ; Рецензия ; Отчет о проверке на объем и корректность внешних заимствований
DOI	10.18720/SPBPU/3/2021/vr/vr21-891
Права доступа	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи	ru\spstu\vkr\13278
Дата создания записи	23.07.2021

Разрешенные действия

–

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа	Анонимные пользователи
Сеть	Интернет

Выпускная квалификационная работа магистра посвящена исследованию в области средств автоматического сбора данных с веб-ресурсов. Описаны подходы автоматизированного поиска и сбора данных с веб-ресурсов. Изучены существующие высокопроизводительные системы автоматизированного сбора данных, основанные на фреймворке Scrapy. Проведен обзор различных библиотек и фреймворков для реализации систем веб-скрапинга. В рамках данной работы описана высокопроизводительная и отказоустойчивая распределённая системы сбора данных с веб-ресурсов. Предложенный подход к организации вычислений заключается в использование системы оркестрации контейнеров Kubernetes, для балансировки нагрузки между элементами кластера и централизации управления. В качестве основного средства реализации веб-скраперов используется фреймворк Scrapy. В результат приведено сравнение скорости сбора данных с использованием простого приложения на базе Scrapy и разработанной системой, а также показаны результаты увеличения производительности за счет повышения количества рабочих узлов.

The master's final qualifying work is devoted to research in the field of means of automatic data collection from web resources. Approaches of automated search and collection of data from web resources are described. Existing high-performance automated data collection systems based on the Scrapy framework have been studied. An overview of various libraries and frameworks for the implementation of web scraping systems is carried out. As part of this work, a high-performance and fault-tolerant distributed system for collecting data from web resources is described. The proposed approach to organizing computations is to use the Kubernetes container orchestration system to balance the load between cluster elements and centralize management. The Scrapy framework is used as the main means of implementing web scrapers. The result is a comparison of the data collection speed using a simple Scrapy-based application and the developed system, and also shows the results of increasing productivity by increasing the number of worker nodes.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Авторизованные пользователи СПбПУ
Интернет	Анонимные пользователи

Количество обращений: 57
За последние 30 дней: 0

Подробная статистика