Details

Title: Применение методов машинного обучения для поиска семантически схожих запросов заказчика: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»
Creators: Соколова Александра Евгеньевна
Scientific adviser: Никифоров Игорь Валерьевич
Other creators: Локшина Екатерина Геннадиевна
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2020
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: алгоритм классификации doc2vec; семантически схожие запросы; косинусная близость; автоматический анализ запросов; doc2vec classification algorythm; semantically similar issues; cosine similarity; automatic request analysis
Document type: Bachelor graduation qualification work
File type: PDF
Language: Russian
Speciality code (FGOS): 09.03.04
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
Links: Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-945
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Выпускная квалификационная работа бакалавра посвящена исследованию сокращения трудоемкости фазы сопровождения программного продукта. Проведен обзор алгоритмов векторного представления данных. Представлено сравнение различных способов оценки семантического сходства текстов. Исследованы существующие инструменты для поиска и анализа запросов заказчика. В рамках проведенной работы предложен метод анализа нерешенных запросов и поиска семантически схожих. Описан процесс создания набора данных из полученных запросов заказчика, рассмотрен подход к использованию алгоритма Doc2Vec для получения векторного представления текста. Показан сценарий применения созданной модели для классификации запроса, а также приведен метод анализа запросов заказчика с помощью правил. В качестве выходных данных описано формирование отчета с полученными рекомендациями. Метод реализован в описанном программном средстве, в результатах приведена инструкция использования инструмента, а также его применение на данных проекта Apache KAFKA. Сделаны выводы об эффективности разработанной системы по сравнению с ручным подходом к анализу запросов заказчика.

The bachelor’s thesis is concerned with research in reducing the complexity of software maintenance phase. The review of the algorithms for the vector representation of data is carried out. The comparison of different ways to evaluate the semantic similarity of texts is presented. The existing tools for searching and analyzing customer requests are researched. Within the framework of the work, a method for analyzing unresolved requests and searching for semantically similar ones is proposed. The process of creating a dataset from collected customer requests is described, an approach to using the Doc2Vec algorithm to obtain a vector representation of text is considered. A scenario of using the created model for classifying a request is shown, and a method for analyzing customer requests with the help of rules is presented. As an output, the generation of a report with the received recommendations is described. The method is implemented in the described software, the results contain instructions for using the tool, as well as its use on Apache KAFKA project data. Conclusions are made about the effectiveness of the developed system compared to the manual approach to analysis of customer requests.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users Read Print Download
-> Internet Anonymous

Usage statistics

stat Access count: 5
Last 30 days: 3
Detailed usage statistics