Details
Title | Разработка высокоэффективного решения для извлечения информации с веб-ресурсов: выпускная квалификационная работа бакалавра: 09.03.04 - Программная инженерия ; 09.03.04_01 - Технология разработки и сопровождения качественного программного продукта |
---|---|
Creators | Барсуков Никита Дмитриевич |
Scientific adviser | Никифоров Игорь Валерьевич |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий |
Imprint | Санкт-Петербург, 2019 |
Collection | Выпускные квалификационные работы ; Общая коллекция |
Subjects | парсинг ; извлечение кода ; автоматизация ; распределенное вычисление ; веб-ресурсы ; parsing ; code extraction ; automation ; distributed computing ; web resource |
Document type | Bachelor graduation qualification work |
File type | |
Language | Russian |
Level of education | Bachelor |
Speciality code (FGOS) | 09.03.04 |
Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
Links | Отзыв руководителя ; Отчет о проверке на объем и корректность внешних заимствований |
DOI | 10.18720/SPBPU/3/2019/vr/vr19-658 |
Rights | Доступ по паролю из сети Интернет (чтение) |
Record key | ru\spstu\vkr\1191 |
Record create date | 8/26/2019 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
В данной выпускной квалификационной работе рассматриваются подходы к извлечению данных с веб-ресурсов. В работе проводится обзор существующих видов веб-скрейперов, и их классификация. В работе разработан и описан алгоритм работы высокопроизводительной системы с распределённой архитектурой. Реализованная система протестирована на сайте hh.ru. Была произведена оценка времени работы системы и существующего API сайта, а тек же было произведено сравнение по извлечению данных с существующими настольным решениями.
The thesis approaches to extracting data from web resources. The paper reviews the current types of web scraper and their classification. In the thesis of high-performance system with the distributed architecture is developed and described. A solution is proposed for the automatic assembly and deployment of a container application. The implemented system was tested on the website headhunter.ru. An assessment was made of the operating time of the system and the existing site API.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
- Список иллюстраций
- Список сокращений
- Введение
- 1. Обзор предметной области
- 1.1 Веб-скрейпинг
- 1.1.1 Доступ к сайту
- 1.1.2 Объектная модель документа
- 1.1.3 Анализ HTML-страницы и извлечение информации
- 1.1.4 XPath
- 1.1.5 Создание выходных данных
- 1.2 Существующие реализации веб-скрейперов
- 1.3 Библиотеки для языков программирования
- 1.4 Фреймворки
- 1.4.1 Scrapy
- 1.4.2 Web-Harvest
- 1.4.3 Jarvest
- 1.4.4 Jsoup
- 1.4.5 Сравнительный анализ реализаций фреймворков
- 1.5 Настольные приложения
- 1.6 Выводы
- 1.1 Веб-скрейпинг
- 2. Архитектура приложения
- 2.1 Обобщенная схема системы
- 2.2 Мастер-узел
- 2.2.1 Алгоритм классификации веб-ресурса
- 2.2.2 Анализ данных для одностраничного класса веб-страниц
- 2.2.3 Особенности извлечения данных для страниц с блоком данных
- 2.3 Рабочий узел
- 2.3.1 Протокол взаимодействия мастер-узла с рабочим узлом
- 2.3.2 База данных
- 2.3.3 Горизонтальная масштабируемость и развертывание рабочего узла
- 2.4 Выводы
- 3. Реализация системы
- 3.1 Выбор языка
- 3.2 Выбор Фреймворков
- 3.2.1 Фреймворк системы
- 3.2.2 База данных
- 3.2.3 Анализ и извлечение данных
- 3.3 Сборка проекта
- 3.4 Реализация развертывания master-узла
- 3.5 Реализация развертывания рабочего узла
- 3.6 Выводы
- 4. Полученные результаты
- 4.1 Оценка скорости работы с существующим API сайта headhunter.ru
- 4.2 Оценка скорости работы с существующими решениями
- 4.3 Выводы
- Заключение
- Список литературы
Access count: 48
Last 30 days: 0