Детальная информация

Название: Программная система определения вредоносного содержания в текстовых данных с использованием алгоритма doc2vec: выпускная квалификационная работа магистра: направление 09.04.04 «Программная инженерия» ; образовательная программа 09.04.04_02 «Основы анализа и разработки приложений с большими объемами распределенных данных»
Авторы: Нгуен Хай Иен
Научный руководитель: Тутыгин Владимир Семенович
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2022
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: Машинное обучение; обработка текстов на естественном языке; вредоносность; электронное письмо; natural language processing; fraudulence; email
УДК: 004.85
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Магистратура
Код специальности ФГОС: 09.04.04
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/3/2023/vr/vr23-799
Права доступа: Доступ по паролю из сети Интернет (чтение)
Ключ записи: ru\spstu\vkr\20847

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Выпускная квалификационная работа магистра посвящена исследованию в области определения вредоносного содержания в текстовых данных. Исследованы характеристики, изучены существующие технологии для определения вредоносности в текстовых данных, проведен их сравнительный анализ, проведен обзор методов вложений слов, выявлены недостатки и необходимость новый подход с использованием алгоритма Doc2Vec. Представлены алгоритмы классификаторов на основе алгоритмов машинного обучения.В рамках работы предложен подход, который позволит определять вредонсное содержание в текстовых данных. В основе подхода будет лежать алгоритм Doc2Vec. Рассмотрены методы предварительного обработанного набора текстовых данных. Описано использование алгоритма Doc2Vec для обучения модели. Предложенный подход был реализован в программной системе определения вредоносного содержания в  текстовых данных. По результатам реализации предложенный подход, точнее, чем существующие использованные другими алгоритмами вложеня слов (2-27% accuracy).

The master's thesis focuses on research into detecting fraudulent content in text data. Characteristics are examined, existing technologies for determining the harmfulness of text data are examinated and compared, a review of word embedding methods is conducted, and flaws and the need for a new approach based on the Doc2Vec algorithm are identified. Classifier algorithms based on machine learnign algorithms are presented.An approach is proposed as part of the work that will allow you to detect fraudulent content in text data. The Doc2Vec algorithm will be used to guide the process. The methods for pre-processed text data are discussed. The Doc2Vec algorithm is described in detail for model training.The proposed method was used to create a software system that could detect fraudulent context in text data. According to the results of the implementation, the proposed approach is more accurate than the existing ones used by other word embedding algorithms (2-27% accuracy).

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать
Интернет Авторизованные пользователи СПбПУ Прочитать
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 1
За последние 30 дней: 0
Подробная статистика