Details

Title: Программная система определения вредоносного содержания в текстовых данных с использованием алгоритма doc2vec: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных»
Creators: Нгуен Хай Иен
Scientific adviser: Тутыгин Владимир Семенович
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2022
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: Машинное обучение; обработка текстов на естественном языке; вредоносность; электронное письмо; natural language processing; fraudulence; email
UDC: 004.85
Document type: Master graduation qualification work
File type: PDF
Language: Russian
Level of education: Master
Speciality code (FGOS): 09.04.04
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/3/2023/vr/vr23-799
Rights: Доступ по паролю из сети Интернет (чтение)
Record key: ru\spstu\vkr\20847

Allowed Actions:

Action 'Read' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Выпускная квалификационная работа магистра посвящена исследованию в области определения вредоносного содержания в текстовых данных. Исследованы характеристики, изучены существующие технологии для определения вредоносности в текстовых данных, проведен их сравнительный анализ, проведен обзор методов вложений слов, выявлены недостатки и необходимость новый подход с использованием алгоритма Doc2Vec. Представлены алгоритмы классификаторов на основе алгоритмов машинного обучения.В рамках работы предложен подход, который позволит определять вредонсное содержание в текстовых данных. В основе подхода будет лежать алгоритм Doc2Vec. Рассмотрены методы предварительного обработанного набора текстовых данных. Описано использование алгоритма Doc2Vec для обучения модели. Предложенный подход был реализован в программной системе определения вредоносного содержания в  текстовых данных. По результатам реализации предложенный подход, точнее, чем существующие использованные другими алгоритмами вложеня слов (2-27% accuracy).

The master's thesis focuses on research into detecting fraudulent content in text data. Characteristics are examined, existing technologies for determining the harmfulness of text data are examinated and compared, a review of word embedding methods is conducted, and flaws and the need for a new approach based on the Doc2Vec algorithm are identified. Classifier algorithms based on machine learnign algorithms are presented.An approach is proposed as part of the work that will allow you to detect fraudulent content in text data. The Doc2Vec algorithm will be used to guide the process. The methods for pre-processed text data are discussed. The Doc2Vec algorithm is described in detail for model training.The proposed method was used to create a software system that could detect fraudulent context in text data. According to the results of the implementation, the proposed approach is more accurate than the existing ones used by other word embedding algorithms (2-27% accuracy).

Document access rights

Network User group Action
ILC SPbPU Local Network All Read
Internet Authorized users SPbPU Read
-> Internet Anonymous

Usage statistics

stat Access count: 1
Last 30 days: 0
Detailed usage statistics