Details

Title: Разработка веб-сервиса рекомендации научной литературы с использованием тематического поиска: выпускная квалификационная работа магистра: 09.04.04 - Программная инженерия ; 09.04.04_02 - Основы анализа и разработки приложений с большими объемами распределенных данных
Creators: Гурко Михаил Витальевич
Scientific adviser: Амосов Владимир Владимирович
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2019
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: Интернет; Информационный поиск; тематическое моделирование; латентное размещение Дирихле; расхождение Дженсена-Шеннона
UDC: 004.738.5(043.3)
Document type: Master graduation qualification work
File type: PDF
Language: Russian
Speciality code (FGOS): 09.04.04
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
Links: http://doi.org/10.18720/SPBPU/3/2019/vr/vr19-1055; http://elib.spbstu.ru/dl/3/2019/vr/rev/vr19-1055-o.pdf; http://elib.spbstu.ru/dl/3/2019/vr/rev/vr19-1055-r.pdf; http://elib.spbstu.ru/dl/3/2019/vr/rev/vr19-1055-a.pdf
Rights: Свободный доступ из сети Интернет (чтение, печать, копирование)

Allowed Actions: Read Download (1.3 Mb) You need Flash Player to read document

Group: Anonymous

Network: FL SPbPU Local Network

Annotation

В данной работе исследуется тематическое моделирование, а также ее использование для реализации системы информационного поиска релевантных статей Википедии, основанный на алгоритме скрытого размещения Дирихле (LDA). Также применяется вычисление расхождения Дженсона-Шеннона для вычисления сходства между двумя распределениями, которые представляют две разные статьи. В первой главе исследуется теория построения тематической модели LDA. Во второй главе рассматривается алгоритм обучения тематической модели на корпусе статей, и анализ результатов. В третей главе реализуется система информационного поиска, которая использует результаты обучения из второй главы, а также выдвигаются направления для дальнейших исследований.

In this paper, we investigate topic modeling, as well as its use for the implementation of an information retrieval system of relevant Wikipedia articles, based on the Latent Dirichlet Allocation (LDA). The Jenson-Shannon divergence calculation is also used to calculate the similarity between the two distributions, which are two different articles. The first chapter explores the theory of building a topic model LDA. In the second chapter, an algorithm for learning a topic model on the corpus of articles and an analysis of the results are considered. The third chapter implements the information retrieval system, which uses the learning outcomes from the second chapter, and also puts forward directions for further research.

Document access rights

Network User group Action
-> FL SPbPU Local Network All Read Print Download
Internet All Read Print Download

Document usage statistics

stat Document access count: 20
Last 30 days: 2
Detailed usage statistics