Table | Card | RUSMARC | |
Allowed Actions: –
Action 'Read' will be available if you login or access site from another network
Group: Anonymous Network: Internet |
Annotation
Выпускная квалификационная работа магистра посвящена исследованию в области определения вредоносного содержания в текстовых данных. Исследованы характеристики, изучены существующие технологии для определения вредоносности в текстовых данных, проведен их сравнительный анализ, проведен обзор методов вложений слов, выявлены недостатки и необходимость новый подход с использованием алгоритма Doc2Vec. Представлены алгоритмы классификаторов на основе алгоритмов машинного обучения.В рамках работы предложен подход, который позволит определять вредонсное содержание в текстовых данных. В основе подхода будет лежать алгоритм Doc2Vec. Рассмотрены методы предварительного обработанного набора текстовых данных. Описано использование алгоритма Doc2Vec для обучения модели. Предложенный подход был реализован в программной системе определения вредоносного содержания в текстовых данных. По результатам реализации предложенный подход, точнее, чем существующие использованные другими алгоритмами вложеня слов (2-27% accuracy).
The master's thesis focuses on research into detecting fraudulent content in text data. Characteristics are examined, existing technologies for determining the harmfulness of text data are examinated and compared, a review of word embedding methods is conducted, and flaws and the need for a new approach based on the Doc2Vec algorithm are identified. Classifier algorithms based on machine learnign algorithms are presented.An approach is proposed as part of the work that will allow you to detect fraudulent content in text data. The Doc2Vec algorithm will be used to guide the process. The methods for pre-processed text data are discussed. The Doc2Vec algorithm is described in detail for model training.The proposed method was used to create a software system that could detect fraudulent context in text data. According to the results of the implementation, the proposed approach is more accurate than the existing ones used by other word embedding algorithms (2-27% accuracy).
Document access rights
Network | User group | Action | ||||
---|---|---|---|---|---|---|
ILC SPbPU Local Network | All | |||||
Internet | Authorized users SPbPU | |||||
Internet | Anonymous |
Usage statistics
Access count: 1
Last 30 days: 0 Detailed usage statistics |