Details

Title Модуль для выделения стоп-листов новостных источников: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»
Creators Ригин Евгений Валерьевич
Scientific adviser Фёдоров Станислав Алексеевич
Other creators Локшина Екатерина Геннадиевна
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint Санкт-Петербург, 2020
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects NER ; Python ; Pullenti SDK ; Eureka Engine ; Natasha ; PostgreSQL ; объектные системы ; средства массовой информации ; стоп-листы ; object systems ; mass media ; stop lists
Document type Bachelor graduation qualification work
File type PDF
Language Russian
Level of education Bachelor
Speciality code (FGOS) 09.03.04
Speciality group (FGOS) 090000 - Информатика и вычислительная техника
Links Отзыв руководителя ; Отчет о проверке на объем и корректность внешних заимствований
DOI 10.18720/SPBPU/3/2020/vr/vr20-1207
Rights Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key ru\spstu\vkr\6529
Record create date 7/10/2020

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group Anonymous
Network Internet

В данной работе создается метод выделения именованных сущностей из новостных статей российских онлайн СМИ и определение на его основе тематических стоп-листов. Проводится анализ существующих систем распознавания именованных сущностей. Основное внимание уделяется скорости и качеству распознавания в NER-системах Pullenti SDK, Eureka Engine и Natasha. На основании этих данных заполняется база данных PostgreSQL и строятся списки стоп-листов.

In this paper, we create a method for extracting named entities from news articles of Russian online media and determine thematic stop lists based on them. The analysis of existing systems for the recognition of named entities. The main focus is on the speed and quality of recognition in the NER-systems Pullenti SDK, Eureka Engine and Natasha. Based on this data, the PostgreSQL database is populated and lists of stop lists are built.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet Authorized users SPbPU
Read Print Download
Internet Anonymous

Access count: 30 
Last 30 days: 0

Detailed usage statistics