Детальная информация
Название | Разработка высокопроизводительной системы для сбора данных с удаленного источника по сети: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных» |
---|---|
Авторы | Хисматуллин Камиль Ильясович |
Научный руководитель | Молодяков Сергей Александрович |
Организация | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Выходные сведения | Санкт-Петербург, 2024 |
Коллекция | Выпускные квалификационные работы; Общая коллекция |
Тематика | распределенная система сбора данных; веб-скрапинг; парсинг; горизонтальное масштабирование; плагины; distributed data collection system; web scraping; parsing; horizontal scaling; plugins |
Тип документа | Выпускная квалификационная работа магистра |
Тип файла | |
Язык | Русский |
Уровень высшего образования | Магистратура |
Код специальности ФГОС | 09.04.04 |
Группа специальностей ФГОС | 090000 - Информатика и вычислительная техника |
DOI | 10.18720/SPBPU/3/2024/vr/vr24-3972 |
Права доступа | Доступ по паролю из сети Интернет (чтение) |
Дополнительно | Новинка |
Ключ записи | ru\spstu\vkr\33436 |
Дата создания записи | 29.08.2024 |
Разрешенные действия
–
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа | Анонимные пользователи |
---|---|
Сеть | Интернет |
Выпускная квалификационная работа посвящена исследованию подходов к организации высокопроизводительного сбора данных с веб-ресурсов. Описаны основные подходы к реализации веб-скрапинга и ее необходимые компоненты. Проведен обзор существующих распределенных систем по сбору данных, были описаны их преимущества и недостатки. Проведен обзор по подходящим для реализации веб-скрапинг системы библиотек. В рамках представленной работы была спроектирована архитектура высокопроизводительной распределенной системы сбора данных. Для удобства расширения возможностей системы используется поддержка плагинов, отдельного для каждого нового веб-ресурса. Система была реализована в программном средстве на примере сайта Авито Авто, были проанализированы проблемы в реализации и работе реализуемой системы сбора данных и были предложены варианты их решения. В результате был проведен тест производительности системы, на которой она показала достойный результат с учетом ограничений со стороны веб-ресурса. В ходе длительной эксплуатации системы деградации производительности не было обнаружено, что говорит о ее стабильности.
The masters thesis is devoted to the study of approaches to the organization of high-performance data collection from web resources. The main approaches to the implementation of web scraping and its necessary components are described. An overview of existing distributed data collection systems was conducted, their advantages and disadvantages were described. A review was conducted on libraries suitable for the implementation of web scraping systems. As part of the presented work, the architecture of a high-performance distributed data collection system was designed. For the convenience of expanding the systems capabilities, support for plug-ins is used, separate for each new web resource. The system was implemented in a software tool using the example of the Avito Auto website, problems in the implementation and operation of the implemented data collection system were analyzed and solutions were proposed. As a result, a performance test of the system was conducted, on which it showed a decent result, taking into account the limitations of the web resource. During the long-term operation of the system, no degradation of performance was detected, which indicates its stability.
Место доступа | Группа пользователей | Действие |
---|---|---|
Локальная сеть ИБК СПбПУ | Все |
|
Интернет | Авторизованные пользователи СПбПУ |
|
Интернет | Анонимные пользователи |
|
Количество обращений: 0
За последние 30 дней: 0