Детальная информация
Название | Разработка высокоэффективного решения для извлечения информации с веб-ресурсов: выпускная квалификационная работа бакалавра: 09.03.04 - Программная инженерия ; 09.03.04_01 - Технология разработки и сопровождения качественного программного продукта |
---|---|
Авторы | Барсуков Никита Дмитриевич |
Научный руководитель | Никифоров Игорь Валерьевич |
Организация | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий |
Выходные сведения | Санкт-Петербург, 2019 |
Коллекция | Выпускные квалификационные работы ; Общая коллекция |
Тематика | парсинг ; извлечение кода ; автоматизация ; распределенное вычисление ; веб-ресурсы ; parsing ; code extraction ; automation ; distributed computing ; web resource |
Тип документа | Выпускная квалификационная работа бакалавра |
Тип файла | |
Язык | Русский |
Уровень высшего образования | Бакалавриат |
Код специальности ФГОС | 09.03.04 |
Группа специальностей ФГОС | 090000 - Информатика и вычислительная техника |
Ссылки | Отзыв руководителя ; Отчет о проверке на объем и корректность внешних заимствований |
DOI | 10.18720/SPBPU/3/2019/vr/vr19-658 |
Права доступа | Доступ по паролю из сети Интернет (чтение) |
Ключ записи | ru\spstu\vkr\1191 |
Дата создания записи | 26.08.2019 |
Разрешенные действия
–
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа | Анонимные пользователи |
---|---|
Сеть | Интернет |
В данной выпускной квалификационной работе рассматриваются подходы к извлечению данных с веб-ресурсов. В работе проводится обзор существующих видов веб-скрейперов, и их классификация. В работе разработан и описан алгоритм работы высокопроизводительной системы с распределённой архитектурой. Реализованная система протестирована на сайте hh.ru. Была произведена оценка времени работы системы и существующего API сайта, а тек же было произведено сравнение по извлечению данных с существующими настольным решениями.
The thesis approaches to extracting data from web resources. The paper reviews the current types of web scraper and their classification. In the thesis of high-performance system with the distributed architecture is developed and described. A solution is proposed for the automatic assembly and deployment of a container application. The implemented system was tested on the website headhunter.ru. An assessment was made of the operating time of the system and the existing site API.
Место доступа | Группа пользователей | Действие |
---|---|---|
Локальная сеть ИБК СПбПУ | Все |
|
Интернет | Авторизованные пользователи СПбПУ |
|
Интернет | Анонимные пользователи |
|
- Список иллюстраций
- Список сокращений
- Введение
- 1. Обзор предметной области
- 1.1 Веб-скрейпинг
- 1.1.1 Доступ к сайту
- 1.1.2 Объектная модель документа
- 1.1.3 Анализ HTML-страницы и извлечение информации
- 1.1.4 XPath
- 1.1.5 Создание выходных данных
- 1.2 Существующие реализации веб-скрейперов
- 1.3 Библиотеки для языков программирования
- 1.4 Фреймворки
- 1.4.1 Scrapy
- 1.4.2 Web-Harvest
- 1.4.3 Jarvest
- 1.4.4 Jsoup
- 1.4.5 Сравнительный анализ реализаций фреймворков
- 1.5 Настольные приложения
- 1.6 Выводы
- 1.1 Веб-скрейпинг
- 2. Архитектура приложения
- 2.1 Обобщенная схема системы
- 2.2 Мастер-узел
- 2.2.1 Алгоритм классификации веб-ресурса
- 2.2.2 Анализ данных для одностраничного класса веб-страниц
- 2.2.3 Особенности извлечения данных для страниц с блоком данных
- 2.3 Рабочий узел
- 2.3.1 Протокол взаимодействия мастер-узла с рабочим узлом
- 2.3.2 База данных
- 2.3.3 Горизонтальная масштабируемость и развертывание рабочего узла
- 2.4 Выводы
- 3. Реализация системы
- 3.1 Выбор языка
- 3.2 Выбор Фреймворков
- 3.2.1 Фреймворк системы
- 3.2.2 База данных
- 3.2.3 Анализ и извлечение данных
- 3.3 Сборка проекта
- 3.4 Реализация развертывания master-узла
- 3.5 Реализация развертывания рабочего узла
- 3.6 Выводы
- 4. Полученные результаты
- 4.1 Оценка скорости работы с существующим API сайта headhunter.ru
- 4.2 Оценка скорости работы с существующими решениями
- 4.3 Выводы
- Заключение
- Список литературы
Количество обращений: 48
За последние 30 дней: 0