Details

Title: Разработка модуля для группировки новостных статей: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»
Creators: Агаев Аслан Фахри оглы
Scientific adviser: Фёдоров Станислав Алексеевич
Other creators: Локшина Екатерина Геннадиевна
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2020
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: обработка естественного языка; извлечение ключевых словосочетаний; извлечение именованных сущностей; частеречная разметка; кластеризация; natural language processing; key phrases extraction; named entities extraction; part of speech tagging; clusterization
Document type: Bachelor graduation qualification work
File type: PDF
Language: Russian
Level of education: Bachelor
Speciality code (FGOS): 09.03.04
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
Links: Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-987
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key: ru\spstu\vkr\7081

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Тема выпускной квалификационной работы: «Разработка модуля для группировки новостных статей». Данная работа посвящена извлечению ключевых словосочетаний и группировке новостных статей на основе их анализа. Задачи, которые решались в ходе исследования: 1. Реализация метода извлечения именованных сущностей из текстов новостных статей. 2. Реализация метода извлечения ключевых словосочетаний из текстов статей. 3. Реализация алгоритма группировки новостных статей на основании анализа ключевых словосочетаний. 4. Реализация интерфейса для корректировки результатов работы модуля. Работа проведена на основе базы данных агрегатора новостей OnoMediaScope. Использованы новостные статьи, кластеризованные по темам. В работе описан модуль для группировки новостных статей на одну и ту же или смежные темы на основа- нии анализа ключевых словосочетаний. Для выделения ключевых словосочетаний проведен частотный анализ используемых слов, построено дерево зависимостей, произведено извлечение именованных сущностей. Проверены гипотезы о важности глагольных форм, существительных в родительном и предложном падежах. Произведена группировка новостных статей.

Theme of the final qualification work: “A module for grouping news articles based on the analysis of key phrases”. This work is devoted to extracting key phrases and grouping news articles. Tasks that were solved: 1. Implementation of a method for extracting named entities from news articles. 2. Implementation of a method for extracting key phrases from article texts. 3. Implementation of the algorithm for grouping news articles based on the analysis of key phrases. 4. Implementation of the interface for adjusting the results of the module. The work was carried out on the basis of the OnoMediaScope news aggregator database. News articles clustered by topic were used. The paper describes a module for grouping news articles on the same or related topics based on the analysis of key phrases. To extract key phrases, a frequency analysis of words was carried out, a dependency tree was built and named entities were extracted. The hypotheses on the importance of verb forms and nouns in the genitive and prepositional cases were tested. News articles were grouped.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users SPbPU Read Print Download
-> Internet Anonymous

Usage statistics

stat Access count: 12
Last 30 days: 0
Detailed usage statistics