Детальная информация

Название: Разработка модуля для группировки новостных статей: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»
Авторы: Агаев Аслан Фахри оглы
Научный руководитель: Фёдоров Станислав Алексеевич
Другие авторы: Локшина Екатерина Геннадиевна
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2020
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: обработка естественного языка; извлечение ключевых словосочетаний; извлечение именованных сущностей; частеречная разметка; кластеризация; natural language processing; key phrases extraction; named entities extraction; part of speech tagging; clusterization
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 09.03.04
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
Ссылки: Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-987
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\7081

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Тема выпускной квалификационной работы: «Разработка модуля для группировки новостных статей». Данная работа посвящена извлечению ключевых словосочетаний и группировке новостных статей на основе их анализа. Задачи, которые решались в ходе исследования: 1. Реализация метода извлечения именованных сущностей из текстов новостных статей. 2. Реализация метода извлечения ключевых словосочетаний из текстов статей. 3. Реализация алгоритма группировки новостных статей на основании анализа ключевых словосочетаний. 4. Реализация интерфейса для корректировки результатов работы модуля. Работа проведена на основе базы данных агрегатора новостей OnoMediaScope. Использованы новостные статьи, кластеризованные по темам. В работе описан модуль для группировки новостных статей на одну и ту же или смежные темы на основа- нии анализа ключевых словосочетаний. Для выделения ключевых словосочетаний проведен частотный анализ используемых слов, построено дерево зависимостей, произведено извлечение именованных сущностей. Проверены гипотезы о важности глагольных форм, существительных в родительном и предложном падежах. Произведена группировка новостных статей.

Theme of the final qualification work: “A module for grouping news articles based on the analysis of key phrases”. This work is devoted to extracting key phrases and grouping news articles. Tasks that were solved: 1. Implementation of a method for extracting named entities from news articles. 2. Implementation of a method for extracting key phrases from article texts. 3. Implementation of the algorithm for grouping news articles based on the analysis of key phrases. 4. Implementation of the interface for adjusting the results of the module. The work was carried out on the basis of the OnoMediaScope news aggregator database. News articles clustered by topic were used. The paper describes a module for grouping news articles on the same or related topics based on the analysis of key phrases. To extract key phrases, a frequency analysis of words was carried out, a dependency tree was built and named entities were extracted. The hypotheses on the importance of verb forms and nouns in the genitive and prepositional cases were tested. News articles were grouped.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 12
За последние 30 дней: 0
Подробная статистика