Разработка приложения автоматизированного извлечения контента новостных статей с применением веб-скраппинга: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии» = Development of an application for automated content extraction of news articles using web scraping

Ерошин, Иван Павлович

Details

Title	Разработка приложения автоматизированного извлечения контента новостных статей с применением веб-скраппинга: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии» = Development of an application for automated content extraction of news articles using web scraping
Creators	Ерошин Иван Павлович
Scientific adviser	Резединова Евгения Юрьевна
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint	Санкт-Петербург, 2023
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	web scrapping ; парсинг ; nodejs ; автоматизация ; playwright ; parsing ; automatization
Document type	Bachelor graduation qualification work
Language	Russian
Level of education	Bachelor
Speciality code (FGOS)	09.03.03
Speciality group (FGOS)	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2023/vr/vr23-3666
Rights	Доступ по паролю из сети Интернет (чтение)
Record key	ru\spstu\vkr\22976
Record create date	7/21/2023

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Данная работа посвящена исследованию веб-скраппинга, автоматическому извлечению контента, а также изучению библиотек Node.js, реализующих веб-скраппинг. Объектом исследования является технология извлечения нужной информации в удобный формат. Предметом исследования являются особенности веб-скраппинга, а также исследование технических аспектов инструментов для автоматизации контента. Цель работы – разработать веб-приложение автоматизированного извлечения контента из новостных статей. В ходе работы были изучены основы веб-скраппинга, его виды и проблемы реализации. Проведён сравнительный анализ существующих технологий веб-скрапинга на основе библиотек Node.js. Изучена научная литература на вышеперечисленные темы. В рамках выпускной квалификационной работы на основе проведённого анализа и определении перечня технологий в качестве результата было разработано веб-приложение, автоматически извлекающее контент из новостных статей. Работа приложения была протестирована на запросах пользователей. Результаты выпускной квалификационной работы могут иметь широкий спектр применения, в том числе для агрегации новостей, создания информационного портала и анализа популярных тем в определённой области.

This study explores web scraping, automatic content extraction, and the Node.js libraries that implement web scraping. The object matter of the study is the technology of extracting the necessary information in a convenient format. The subject matter of the study is the features of web scraping, as well as a study of the technical aspects of tools for content automation. The purpose matter of the study is to develop a web application for automated content extraction of news articles. During the graduate qualification work on the basis of the analysis and definition of a list of technologies, a web application was developed, which automatically extracts content from news articles. The work of the application was tested on certain user requests. As part of the graduate qualification work on the basis of the analysis and determining the list of technologies as a result of a web application was developed, which automatically extracts content from news articles. The work of the application was tested on user requests. The results of the graduate qualification work can have a wide range of applications, including news aggregation, creation of an information web portal and analysis of popular topics in a particular area.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Разработка приложения автоматизированного извлечения контента новостных статей с применением веб-скраппинга
- Введение
- 1. Технология веб-скраппинга
- 2. Веб-технологии для реализации сбора данных методом веб-скраппинга
- 3. Разработка веб-приложения автоматизированного извлечения контента
- 4. Тестирование разработанного веб-приложения
- Заключение
- Список сокращений и условных обозначений
- Словарь терминов
- Список использованных источников
- Приложение 1. Результаты измерений при выполнении тестов для методов веб-скраппинга
- Приложение 2. Исходный код разработанного веб-приложения

...