Details

Title: Разработка веб-сервиса рекомендации научной литературы с использованием тематического поиска: выпускная квалификационная работа магистра: 09.04.04 - Программная инженерия ; 09.04.04_02 - Основы анализа и разработки приложений с большими объемами распределенных данных
Creators: Гурко Михаил Витальевич
Scientific adviser: Амосов Владимир Владимирович
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2019
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: Интернет; Информационный поиск; тематическое моделирование; латентное размещение Дирихле; расхождение Дженсена-Шеннона
UDC: 004.738.5(043.3)
Document type: Master graduation qualification work
File type: PDF
Language: Russian
Level of education: Master
Speciality code (FGOS): 09.04.04
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
Links: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2019/vr/vr19-1055
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key: ru\spstu\vkr\2496

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

В данной работе исследуется тематическое моделирование, а также ее использование для реализации системы информационного поиска релевантных статей Википедии, основанный на алгоритме скрытого размещения Дирихле (LDA). Также применяется вычисление расхождения Дженсона-Шеннона для вычисления сходства между двумя распределениями, которые представляют две разные статьи. В первой главе исследуется теория построения тематической модели LDA. Во второй главе рассматривается алгоритм обучения тематической модели на корпусе статей, и анализ результатов. В третей главе реализуется система информационного поиска, которая использует результаты обучения из второй главы, а также выдвигаются направления для дальнейших исследований.

In this paper, we investigate topic modeling, as well as its use for the implementation of an information retrieval system of relevant Wikipedia articles, based on the Latent Dirichlet Allocation (LDA). The Jenson-Shannon divergence calculation is also used to calculate the similarity between the two distributions, which are two different articles. The first chapter explores the theory of building a topic model LDA. In the second chapter, an algorithm for learning a topic model on the corpus of articles and an analysis of the results are considered. The third chapter implements the information retrieval system, which uses the learning outcomes from the second chapter, and also puts forward directions for further research.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users SPbPU Read Print Download
-> Internet Anonymous

Usage statistics

stat Access count: 29
Last 30 days: 0
Detailed usage statistics