Детальная информация

Название: Модуль для выделения стоп-листов новостных источников: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»
Авторы: Ригин Евгений Валерьевич
Научный руководитель: Фёдоров Станислав Алексеевич
Другие авторы: Локшина Екатерина Геннадиевна
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2020
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: NER; Python; Pullenti SDK; Eureka Engine; Natasha; PostgreSQL; объектные системы; средства массовой информации; стоп-листы; object systems; mass media; stop lists
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 09.03.04
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
Ссылки: Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-1207
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\6529

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

В данной работе создается метод выделения именованных сущностей из новостных статей российских онлайн СМИ и определение на его основе тематических стоп-листов. Проводится анализ существующих систем распознавания именованных сущностей. Основное внимание уделяется скорости и качеству распознавания в NER-системах Pullenti SDK, Eureka Engine и Natasha. На основании этих данных заполняется база данных PostgreSQL и строятся списки стоп-листов.

In this paper, we create a method for extracting named entities from news articles of Russian online media and determine thematic stop lists based on them. The analysis of existing systems for the recognition of named entities. The main focus is on the speed and quality of recognition in the NER-systems Pullenti SDK, Eureka Engine and Natasha. Based on this data, the PostgreSQL database is populated and lists of stop lists are built.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 25
За последние 30 дней: 0
Подробная статистика