Details

Title Разработка приложения автоматизированного извлечения контента новостных статей с применением веб-скраппинга: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии»
Creators Ерошин Иван Павлович
Scientific adviser Резединова Евгения Юрьевна
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint Санкт-Петербург, 2023
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects web scrapping ; парсинг ; nodejs ; автоматизация ; playwright ; parsing ; automatization
Document type Bachelor graduation qualification work
File type PDF
Language Russian
Level of education Bachelor
Speciality code (FGOS) 09.03.03
Speciality group (FGOS) 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2023/vr/vr23-3666
Rights Доступ по паролю из сети Интернет (чтение)
Record key ru\spstu\vkr\22976
Record create date 7/21/2023

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Group Anonymous
Network Internet

Данная работа посвящена исследованию веб-скраппинга, автоматическому извлечению контента, а также изучению библиотек Node.js, реализующих веб-скраппинг. Объектом исследования является технология извлечения нужной информации в удобный формат. Предметом исследования являются особенности веб-скраппинга, а также исследование технических аспектов инструментов для автоматизации контента. Цель работы – разработать веб-приложение автоматизированного извлечения контента из новостных статей. В ходе работы были изучены основы веб-скраппинга, его виды и проблемы реализации. Проведён сравнительный анализ существующих технологий веб-скрапинга на основе библиотек Node.js. Изучена научная литература на вышеперечисленные темы. В рамках выпускной квалификационной работы на основе проведённого анализа и определении перечня технологий в качестве результата было разработано веб-приложение, автоматически извлекающее контент из новостных статей. Работа приложения была протестирована на запросах пользователей. Результаты выпускной квалификационной работы могут иметь широкий спектр применения, в том числе для агрегации новостей, создания информационного портала и анализа популярных тем в определённой области.

This study explores web scraping, automatic content extraction, and the Node.js libraries that implement web scraping. The object matter of the study is the technology of extracting the necessary information in a convenient format. The subject matter of the study is the features of web scraping, as well as a study of the technical aspects of tools for content automation. The purpose matter of the study is to develop a web application for automated content extraction of news articles. During the graduate qualification work on the basis of the analysis and definition of a list of technologies, a web application was developed, which automatically extracts content from news articles. The work of the application was tested on certain user requests. As part of the graduate qualification work on the basis of the analysis and determining the list of technologies as a result of a web application was developed, which automatically extracts content from news articles. The work of the application was tested on user requests. The results of the graduate qualification work can have a wide range of applications, including news aggregation, creation of an information web portal and analysis of popular topics in a particular area.

Network User group Action
ILC SPbPU Local Network All
Read
Internet Authorized users SPbPU
Read
Internet Anonymous
  • Разработка приложения автоматизированного извлечения контента новостных статей с применением веб-скраппинга
    • Введение
    • 1. Технология веб-скраппинга
    • 2. Веб-технологии для реализации сбора данных методом веб-скраппинга
    • 3. Разработка веб-приложения автоматизированного извлечения контента
    • 4. Тестирование разработанного веб-приложения
    • Заключение
    • Список сокращений и условных обозначений
    • Словарь терминов
    • Список использованных источников
    • Приложение 1. Результаты измерений при выполнении тестов для методов веб-скраппинга
    • Приложение 2. Исходный код разработанного веб-приложения

Access count: 35 
Last 30 days: 0

Detailed usage statistics