С 17 марта 2020 г. для ресурсов (учебные, научные, материалы конференций, статьи из периодических изданий, авторефераты диссертаций, диссертации) ЭБ СПбПУ, обеспечивающих образовательный процесс, установлен особый режим использования. Обращаем внимание, что ВКР/НД не относятся к этой категории.

Details

Title: Модуль для выделения стоп-листов новостных источников: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»
Creators: Ригин Евгений Валерьевич
Scientific adviser: Фёдоров Станислав Алексеевич
Other creators: Локшина Екатерина Геннадиевна
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт промышленного менеджмента, экономики и торговли
Imprint: Санкт-Петербург, 2020
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: NER; Python; Pullenti SDK; Eureka Engine; Natasha; PostgreSQL; объектные системы; средства массовой информации; стоп-листы; object systems; mass media; stop lists
Document type: Bachelor graduation qualification work
File type: PDF
Language: Russian
Speciality code (FGOS): 09.03.04
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
Links: Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-1207
Rights: Свободный доступ из сети Интернет (чтение, печать, копирование)
Additionally: New arrival

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

В данной работе создается метод выделения именованных сущностей из новостных статей российских онлайн СМИ и определение на его основе тематических стоп-листов. Проводится анализ существующих систем распознавания именованных сущностей. Основное внимание уделяется скорости и качеству распознавания в NER-системах Pullenti SDK, Eureka Engine и Natasha. На основании этих данных заполняется база данных PostgreSQL и строятся списки стоп-листов.

In this paper, we create a method for extracting named entities from news articles of Russian online media and determine thematic stop lists based on them. The analysis of existing systems for the recognition of named entities. The main focus is on the speed and quality of recognition in the NER-systems Pullenti SDK, Eureka Engine and Natasha. Based on this data, the PostgreSQL database is populated and lists of stop lists are built.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users Read Print Download
-> Internet Anonymous

Usage statistics

stat Access count: 0
Last 30 days: 0
Detailed usage statistics