Details
Title | Модуль для выделения стоп-листов новостных источников: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта» |
---|---|
Creators | Ригин Евгений Валерьевич |
Scientific adviser | Фёдоров Станислав Алексеевич |
Other creators | Локшина Екатерина Геннадиевна |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий |
Imprint | Санкт-Петербург, 2020 |
Collection | Выпускные квалификационные работы ; Общая коллекция |
Subjects | NER ; Python ; Pullenti SDK ; Eureka Engine ; Natasha ; PostgreSQL ; объектные системы ; средства массовой информации ; стоп-листы ; object systems ; mass media ; stop lists |
Document type | Bachelor graduation qualification work |
File type | |
Language | Russian |
Level of education | Bachelor |
Speciality code (FGOS) | 09.03.04 |
Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
Links | Отзыв руководителя ; Отчет о проверке на объем и корректность внешних заимствований |
DOI | 10.18720/SPBPU/3/2020/vr/vr20-1207 |
Rights | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
Record key | ru\spstu\vkr\6529 |
Record create date | 7/10/2020 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
В данной работе создается метод выделения именованных сущностей из новостных статей российских онлайн СМИ и определение на его основе тематических стоп-листов. Проводится анализ существующих систем распознавания именованных сущностей. Основное внимание уделяется скорости и качеству распознавания в NER-системах Pullenti SDK, Eureka Engine и Natasha. На основании этих данных заполняется база данных PostgreSQL и строятся списки стоп-листов.
In this paper, we create a method for extracting named entities from news articles of Russian online media and determine thematic stop lists based on them. The analysis of existing systems for the recognition of named entities. The main focus is on the speed and quality of recognition in the NER-systems Pullenti SDK, Eureka Engine and Natasha. Based on this data, the PostgreSQL database is populated and lists of stop lists are built.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
Access count: 30
Last 30 days: 0