Детальная информация

Название: Разработка высокоэффективного решения для извлечения информации с веб-ресурсов: выпускная квалификационная работа бакалавра: 09.03.04 - Программная инженерия ; 09.03.04_01 - Технология разработки и сопровождения качественного программного продукта
Авторы: Барсуков Никита Дмитриевич
Научный руководитель: Никифоров Игорь Валерьевич
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2019
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: парсинг; извлечение кода; автоматизация; распределенное вычисление; веб-ресурсы; parsing; code extraction; automation; distributed computing; web resource
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 09.03.04
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
Ссылки: Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2019/vr/vr19-658
Права доступа: Доступ по паролю из сети Интернет (чтение)
Ключ записи: ru\spstu\vkr\1191

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

В данной выпускной квалификационной работе рассматриваются подходы к извлечению данных с веб-ресурсов. В работе проводится обзор существующих видов веб-скрейперов, и их классификация. В работе разработан и описан алгоритм работы высокопроизводительной системы с распределённой архитектурой. Реализованная система протестирована на сайте hh.ru. Была произведена оценка времени работы системы и существующего API сайта, а тек же было произведено сравнение по извлечению данных с существующими настольным решениями.

The thesis approaches to extracting data from web resources. The paper reviews the current types of web scraper and their classification. In the thesis of high-performance system with the distributed architecture is developed and described. A solution is proposed for the automatic assembly and deployment of a container application. The implemented system was tested on the website headhunter.ru. An assessment was made of the operating time of the system and the existing site API.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать
Интернет Авторизованные пользователи СПбПУ Прочитать
-> Интернет Анонимные пользователи

Оглавление

  • Список иллюстраций
  • Список сокращений
  • Введение
  • 1. Обзор предметной области
    • 1.1 Веб-скрейпинг
      • 1.1.1 Доступ к сайту
      • 1.1.2 Объектная модель документа
      • 1.1.3 Анализ HTML-страницы и извлечение информации
      • 1.1.4 XPath
      • 1.1.5 Создание выходных данных
    • 1.2 Существующие реализации веб-скрейперов
    • 1.3 Библиотеки для языков программирования
    • 1.4 Фреймворки
      • 1.4.1 Scrapy
      • 1.4.2 Web-Harvest
      • 1.4.3 Jarvest
      • 1.4.4 Jsoup
      • 1.4.5 Сравнительный анализ реализаций фреймворков
    • 1.5 Настольные приложения
    • 1.6 Выводы
  • 2. Архитектура приложения
    • 2.1 Обобщенная схема системы
    • 2.2 Мастер-узел
      • 2.2.1 Алгоритм классификации веб-ресурса
      • 2.2.2 Анализ данных для одностраничного класса веб-страниц
      • 2.2.3 Особенности извлечения данных для страниц с блоком данных
    • 2.3 Рабочий узел
      • 2.3.1 Протокол взаимодействия мастер-узла с рабочим узлом
      • 2.3.2 База данных
      • 2.3.3 Горизонтальная масштабируемость и развертывание рабочего узла
    • 2.4 Выводы
  • 3. Реализация системы
    • 3.1 Выбор языка
    • 3.2 Выбор Фреймворков
      • 3.2.1 Фреймворк системы
      • 3.2.2 База данных
      • 3.2.3 Анализ и извлечение данных
    • 3.3 Сборка проекта
    • 3.4 Реализация развертывания master-узла
    • 3.5 Реализация развертывания рабочего узла
    • 3.6 Выводы
  • 4. Полученные результаты
    • 4.1 Оценка скорости работы с существующим API сайта headhunter.ru
    • 4.2 Оценка скорости работы с существующими решениями
    • 4.3 Выводы
  • Заключение
  • Список литературы

Статистика использования

stat Количество обращений: 48
За последние 30 дней: 0
Подробная статистика