Детальная информация

Название: Разработка приложения автоматизированного извлечения контента новостных статей с применением веб-скраппинга: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии»
Авторы: Ерошин Иван Павлович
Научный руководитель: Резединова Евгения Юрьевна
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2023
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: web scrapping; парсинг; nodejs; автоматизация; playwright; parsing; automatization
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 09.03.03
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/3/2023/vr/vr23-3666
Права доступа: Доступ по паролю из сети Интернет (чтение)
Ключ записи: ru\spstu\vkr\22976

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Данная работа посвящена исследованию веб-скраппинга, автоматическому извлечению контента, а также изучению библиотек Node.js, реализующих веб-скраппинг. Объектом исследования является технология извлечения нужной информации в удобный формат. Предметом исследования являются особенности веб-скраппинга, а также исследование технических аспектов инструментов для автоматизации контента. Цель работы – разработать веб-приложение автоматизированного извлечения контента из новостных статей. В ходе работы были изучены основы веб-скраппинга, его виды и проблемы реализации. Проведён сравнительный анализ существующих технологий веб-скрапинга на основе библиотек Node.js. Изучена научная литература на вышеперечисленные темы. В рамках выпускной квалификационной работы на основе проведённого анализа и определении перечня технологий в качестве результата было разработано веб-приложение, автоматически извлекающее контент из новостных статей. Работа приложения была протестирована на запросах пользователей. Результаты выпускной квалификационной работы могут иметь широкий спектр применения, в том числе для агрегации новостей, создания информационного портала и анализа популярных тем в определённой области.

This study explores web scraping, automatic content extraction, and the Node.js libraries that implement web scraping. The object matter of the study is the technology of extracting the necessary information in a convenient format. The subject matter of the study is the features of web scraping, as well as a study of the technical aspects of tools for content automation. The purpose matter of the study is to develop a web application for automated content extraction of news articles. During the graduate qualification work on the basis of the analysis and definition of a list of technologies, a web application was developed, which automatically extracts content from news articles. The work of the application was tested on certain user requests. As part of the graduate qualification work on the basis of the analysis and determining the list of technologies as a result of a web application was developed, which automatically extracts content from news articles. The work of the application was tested on user requests. The results of the graduate qualification work can have a wide range of applications, including news aggregation, creation of an information web portal and analysis of popular topics in a particular area.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать
Интернет Авторизованные пользователи СПбПУ Прочитать
-> Интернет Анонимные пользователи

Оглавление

  • Разработка приложения автоматизированного извлечения контента новостных статей с применением веб-скраппинга
    • Введение
    • 1. Технология веб-скраппинга
    • 2. Веб-технологии для реализации сбора данных методом веб-скраппинга
    • 3. Разработка веб-приложения автоматизированного извлечения контента
    • 4. Тестирование разработанного веб-приложения
    • Заключение
    • Список сокращений и условных обозначений
    • Словарь терминов
    • Список использованных источников
    • Приложение 1. Результаты измерений при выполнении тестов для методов веб-скраппинга
    • Приложение 2. Исходный код разработанного веб-приложения

Статистика использования

stat Количество обращений: 23
За последние 30 дней: 1
Подробная статистика