Детальная информация

Название Разработка высокопроизводительной системы для сбора данных с удаленного источника по сети: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных»
Авторы Хисматуллин Камиль Ильясович
Научный руководитель Молодяков Сергей Александрович
Организация Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения Санкт-Петербург, 2024
Коллекция Выпускные квалификационные работы; Общая коллекция
Тематика распределенная система сбора данных; веб-скрапинг; парсинг; горизонтальное масштабирование; плагины; distributed data collection system; web scraping; parsing; horizontal scaling; plugins
Тип документа Выпускная квалификационная работа магистра
Тип файла PDF
Язык Русский
Уровень высшего образования Магистратура
Код специальности ФГОС 09.04.04
Группа специальностей ФГОС 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2024/vr/vr24-3972
Права доступа Доступ по паролю из сети Интернет (чтение)
Дополнительно Новинка
Ключ записи ru\spstu\vkr\33436
Дата создания записи 29.08.2024

Разрешенные действия

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа Анонимные пользователи
Сеть Интернет

Выпускная квалификационная работа посвящена исследованию подходов к организации высокопроизводительного сбора данных с веб-ресурсов. Описаны основные подходы к реализации веб-скрапинга и ее необходимые компоненты. Проведен обзор существующих распределенных систем по сбору данных, были описаны их преимущества и недостатки. Проведен обзор по подходящим для реализации веб-скрапинг системы библиотек. В рамках представленной работы была спроектирована архитектура высокопроизводительной распределенной системы сбора данных. Для удобства расширения возможностей системы используется поддержка плагинов, отдельного для каждого нового веб-ресурса. Система была реализована в программном средстве на примере сайта Авито Авто, были проанализированы проблемы в реализации и работе реализуемой системы сбора данных и были предложены варианты их решения. В результате был проведен тест производительности системы, на которой она показала достойный результат с учетом ограничений со стороны веб-ресурса. В ходе длительной эксплуатации системы деградации производительности не было обнаружено, что говорит о ее стабильности.

The masters thesis is devoted to the study of approaches to the organization of high-performance data collection from web resources. The main approaches to the implementation of web scraping and its necessary components are described. An overview of existing distributed data collection systems was conducted, their advantages and disadvantages were described. A review was conducted on libraries suitable for the implementation of web scraping systems. As part of the presented work, the architecture of a high-performance distributed data collection system was designed. For the convenience of expanding the systems capabilities, support for plug-ins is used, separate for each new web resource. The system was implemented in a software tool using the example of the Avito Auto website, problems in the implementation and operation of the implemented data collection system were analyzed and solutions were proposed. As a result, a performance test of the system was conducted, on which it showed a decent result, taking into account the limitations of the web resource. During the long-term operation of the system, no degradation of performance was detected, which indicates its stability.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать
Интернет Авторизованные пользователи СПбПУ
Прочитать
Интернет Анонимные пользователи

Количество обращений: 0 
За последние 30 дней: 0

Подробная статистика