Details

Title: Разработка приложения автоматизированного извлечения контента новостных статей с применением веб-скраппинга: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии»
Creators: Ерошин Иван Павлович
Scientific adviser: Резединова Евгения Юрьевна
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2023
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: web scrapping; парсинг; nodejs; автоматизация; playwright; parsing; automatization
Document type: Bachelor graduation qualification work
File type: PDF
Language: Russian
Level of education: Bachelor
Speciality code (FGOS): 09.03.03
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/3/2023/vr/vr23-3666
Rights: Доступ по паролю из сети Интернет (чтение)
Record key: ru\spstu\vkr\22976

Allowed Actions:

Action 'Read' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Данная работа посвящена исследованию веб-скраппинга, автоматическому извлечению контента, а также изучению библиотек Node.js, реализующих веб-скраппинг. Объектом исследования является технология извлечения нужной информации в удобный формат. Предметом исследования являются особенности веб-скраппинга, а также исследование технических аспектов инструментов для автоматизации контента. Цель работы – разработать веб-приложение автоматизированного извлечения контента из новостных статей. В ходе работы были изучены основы веб-скраппинга, его виды и проблемы реализации. Проведён сравнительный анализ существующих технологий веб-скрапинга на основе библиотек Node.js. Изучена научная литература на вышеперечисленные темы. В рамках выпускной квалификационной работы на основе проведённого анализа и определении перечня технологий в качестве результата было разработано веб-приложение, автоматически извлекающее контент из новостных статей. Работа приложения была протестирована на запросах пользователей. Результаты выпускной квалификационной работы могут иметь широкий спектр применения, в том числе для агрегации новостей, создания информационного портала и анализа популярных тем в определённой области.

This study explores web scraping, automatic content extraction, and the Node.js libraries that implement web scraping. The object matter of the study is the technology of extracting the necessary information in a convenient format. The subject matter of the study is the features of web scraping, as well as a study of the technical aspects of tools for content automation. The purpose matter of the study is to develop a web application for automated content extraction of news articles. During the graduate qualification work on the basis of the analysis and definition of a list of technologies, a web application was developed, which automatically extracts content from news articles. The work of the application was tested on certain user requests. As part of the graduate qualification work on the basis of the analysis and determining the list of technologies as a result of a web application was developed, which automatically extracts content from news articles. The work of the application was tested on user requests. The results of the graduate qualification work can have a wide range of applications, including news aggregation, creation of an information web portal and analysis of popular topics in a particular area.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read
Internet Authorized users SPbPU Read
-> Internet Anonymous

Table of Contents

  • Разработка приложения автоматизированного извлечения контента новостных статей с применением веб-скраппинга
    • Введение
    • 1. Технология веб-скраппинга
    • 2. Веб-технологии для реализации сбора данных методом веб-скраппинга
    • 3. Разработка веб-приложения автоматизированного извлечения контента
    • 4. Тестирование разработанного веб-приложения
    • Заключение
    • Список сокращений и условных обозначений
    • Словарь терминов
    • Список использованных источников
    • Приложение 1. Результаты измерений при выполнении тестов для методов веб-скраппинга
    • Приложение 2. Исходный код разработанного веб-приложения

Usage statistics

stat Access count: 28
Last 30 days: 0
Detailed usage statistics