Table | Card | RUSMARC | |
Allowed Actions: –
Action 'Read' will be available if you login or access site from another network
Group: Anonymous Network: Internet |
Annotation
Данная работа посвящена исследованию веб-скраппинга, автоматическому извлечению контента, а также изучению библиотек Node.js, реализующих веб-скраппинг. Объектом исследования является технология извлечения нужной информации в удобный формат. Предметом исследования являются особенности веб-скраппинга, а также исследование технических аспектов инструментов для автоматизации контента. Цель работы – разработать веб-приложение автоматизированного извлечения контента из новостных статей. В ходе работы были изучены основы веб-скраппинга, его виды и проблемы реализации. Проведён сравнительный анализ существующих технологий веб-скрапинга на основе библиотек Node.js. Изучена научная литература на вышеперечисленные темы. В рамках выпускной квалификационной работы на основе проведённого анализа и определении перечня технологий в качестве результата было разработано веб-приложение, автоматически извлекающее контент из новостных статей. Работа приложения была протестирована на запросах пользователей. Результаты выпускной квалификационной работы могут иметь широкий спектр применения, в том числе для агрегации новостей, создания информационного портала и анализа популярных тем в определённой области.
This study explores web scraping, automatic content extraction, and the Node.js libraries that implement web scraping. The object matter of the study is the technology of extracting the necessary information in a convenient format. The subject matter of the study is the features of web scraping, as well as a study of the technical aspects of tools for content automation. The purpose matter of the study is to develop a web application for automated content extraction of news articles. During the graduate qualification work on the basis of the analysis and definition of a list of technologies, a web application was developed, which automatically extracts content from news articles. The work of the application was tested on certain user requests. As part of the graduate qualification work on the basis of the analysis and determining the list of technologies as a result of a web application was developed, which automatically extracts content from news articles. The work of the application was tested on user requests. The results of the graduate qualification work can have a wide range of applications, including news aggregation, creation of an information web portal and analysis of popular topics in a particular area.
Document access rights
Network | User group | Action | ||||
---|---|---|---|---|---|---|
ILC SPbPU Local Network | All | |||||
Internet | Authorized users SPbPU | |||||
Internet | Anonymous |
Table of Contents
- Разработка приложения автоматизированного извлечения контента новостных статей с применением веб-скраппинга
- Введение
- 1. Технология веб-скраппинга
- 2. Веб-технологии для реализации сбора данных методом веб-скраппинга
- 3. Разработка веб-приложения автоматизированного извлечения контента
- 4. Тестирование разработанного веб-приложения
- Заключение
- Список сокращений и условных обозначений
- Словарь терминов
- Список использованных источников
- Приложение 1. Результаты измерений при выполнении тестов для методов веб-скраппинга
- Приложение 2. Исходный код разработанного веб-приложения
Usage statistics
Access count: 28
Last 30 days: 0 Detailed usage statistics |