Details
Title | Разработка веб-сервиса рекомендации научной литературы с использованием тематического поиска: выпускная квалификационная работа магистра: 09.04.04 - Программная инженерия ; 09.04.04_02 - Основы анализа и разработки приложений с большими объемами распределенных данных |
---|---|
Creators | Гурко Михаил Витальевич |
Scientific adviser | Амосов Владимир Владимирович |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий |
Imprint | Санкт-Петербург, 2019 |
Collection | Выпускные квалификационные работы; Общая коллекция |
Subjects | Интернет; Информационный поиск; тематическое моделирование; латентное размещение Дирихле; расхождение Дженсена-Шеннона |
UDC | 004.738.5(043.3) |
Document type | Master graduation qualification work |
File type | |
Language | Russian |
Level of education | Master |
Speciality code (FGOS) | 09.04.04 |
Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
Links | Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований |
DOI | 10.18720/SPBPU/3/2019/vr/vr19-1055 |
Rights | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
Record key | ru\spstu\vkr\2496 |
Record create date | 9/26/2019 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
В данной работе исследуется тематическое моделирование, а также ее использование для реализации системы информационного поиска релевантных статей Википедии, основанный на алгоритме скрытого размещения Дирихле (LDA). Также применяется вычисление расхождения Дженсона-Шеннона для вычисления сходства между двумя распределениями, которые представляют две разные статьи. В первой главе исследуется теория построения тематической модели LDA. Во второй главе рассматривается алгоритм обучения тематической модели на корпусе статей, и анализ результатов. В третей главе реализуется система информационного поиска, которая использует результаты обучения из второй главы, а также выдвигаются направления для дальнейших исследований.
In this paper, we investigate topic modeling, as well as its use for the implementation of an information retrieval system of relevant Wikipedia articles, based on the Latent Dirichlet Allocation (LDA). The Jenson-Shannon divergence calculation is also used to calculate the similarity between the two distributions, which are two different articles. The first chapter explores the theory of building a topic model LDA. In the second chapter, an algorithm for learning a topic model on the corpus of articles and an analysis of the results are considered. The third chapter implements the information retrieval system, which uses the learning outcomes from the second chapter, and also puts forward directions for further research.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
Access count: 29
Last 30 days: 0