Details

Title Разработка веб-сервиса рекомендации научной литературы с использованием тематического поиска: выпускная квалификационная работа магистра: 09.04.04 - Программная инженерия ; 09.04.04_02 - Основы анализа и разработки приложений с большими объемами распределенных данных
Creators Гурко Михаил Витальевич
Scientific adviser Амосов Владимир Владимирович
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint Санкт-Петербург, 2019
Collection Выпускные квалификационные работы; Общая коллекция
Subjects Интернет; Информационный поиск; тематическое моделирование; латентное размещение Дирихле; расхождение Дженсена-Шеннона
UDC 004.738.5(043.3)
Document type Master graduation qualification work
File type PDF
Language Russian
Level of education Master
Speciality code (FGOS) 09.04.04
Speciality group (FGOS) 090000 - Информатика и вычислительная техника
Links Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI 10.18720/SPBPU/3/2019/vr/vr19-1055
Rights Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key ru\spstu\vkr\2496
Record create date 9/26/2019

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group Anonymous
Network Internet

В данной работе исследуется тематическое моделирование, а также ее использование для реализации системы информационного поиска релевантных статей Википедии, основанный на алгоритме скрытого размещения Дирихле (LDA). Также применяется вычисление расхождения Дженсона-Шеннона для вычисления сходства между двумя распределениями, которые представляют две разные статьи. В первой главе исследуется теория построения тематической модели LDA. Во второй главе рассматривается алгоритм обучения тематической модели на корпусе статей, и анализ результатов. В третей главе реализуется система информационного поиска, которая использует результаты обучения из второй главы, а также выдвигаются направления для дальнейших исследований.

In this paper, we investigate topic modeling, as well as its use for the implementation of an information retrieval system of relevant Wikipedia articles, based on the Latent Dirichlet Allocation (LDA). The Jenson-Shannon divergence calculation is also used to calculate the similarity between the two distributions, which are two different articles. The first chapter explores the theory of building a topic model LDA. In the second chapter, an algorithm for learning a topic model on the corpus of articles and an analysis of the results are considered. The third chapter implements the information retrieval system, which uses the learning outcomes from the second chapter, and also puts forward directions for further research.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet Authorized users SPbPU
Read Print Download
Internet Anonymous

Access count: 29 
Last 30 days: 0

Detailed usage statistics