Details

Title: Определение авторства естественно-языковых текстов в социальных сетях: выпускная квалификационная работа бакалавра: направление 10.03.01 «Информационная безопасность» ; образовательная программа 10.03.01_03 «Безопасность компьютерных систем»
Creators: Журавков Даниил Андреевич
Scientific adviser: Овасапян Тигран Джаникович
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint: Санкт-Петербург, 2024
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: классификация текста; машинное обучение; набор данных; обработка естественного языка; стилометрические признаки; текстовые корпуса; text classification; machine learning; data set; natural language processing; stylometric features; text corps
Document type: Bachelor graduation qualification work
File type: PDF
Language: Russian
Level of education: Bachelor
Speciality code (FGOS): 10.03.01
Speciality group (FGOS): 100000 - Информационная безопасность
DOI: 10.18720/SPBPU/3/2024/vr/vr24-1886
Rights: Доступ по паролю из сети Интернет (чтение)
Additionally: New arrival
Record key: ru\spstu\vkr\28906

Allowed Actions:

Action 'Read' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Тема выпускной квалификационной работы: «Определение авторства естественно-языковых текстов в социальных сетях» Цель работы - определение оптимального метода для однозначной идентификации автора естественно-языковых текстов из социальной сети Telegram с использованием современных алгоритмов машинного обучения и методов векторизации текстов. Предметом исследования являются методы и алгоритмы машинного обучения, применяемые для идентификации авторства естественно-языковых текстов из социальных сетей, включающие векторизацию текстов и классификацию авторства. Задачи, решаемые в ходе исследования: 1. Исследование существующих методов и алгоритмов машинного обучения, применяемых для задачи определения авторства. 2. Подготовка объекта исследования, содержащего нормализованные естественно-языковые тексты различных авторов в социальной сети Telegram. 3. Обучение методов и алгоритмов машинного обучения для определения авторства естественно языковых текстов. 4. Тестирование методов и алгоритмов машинного обучения и оценка полученных результатов. В результате работы ожидается определить наиболее эффективные методы векторизации и классификации для задачи определения авторства текстов из социальных сетей. Анализ стилометрических признаков дополнительно подтвердит возможность использования этих методов для авторской атрибуции текстов.

The topic of the final qualification work: "Authorship Attribution of Natural Language Texts in Social Networks" The aim of this work is to determine the optimal method for unambiguous identification of the author of natural language texts from the social network Telegram using modern machine learning algorithms and text vectorization methods. The subject of the research includes methods and algorithms of machine learning applied to author identification of natural language texts from social networks, including text vectorization and author classification. The tasks to be solved during the research are as follows: 1. Investigation of existing methods and machine learning algorithms applied to the task of author identification. 2. Preparation of the research object, containing normalized natural language texts from various authors in the social network Telegram. 3. Training of machine learning methods and algorithms for author identification of natural language texts. 4. Testing of machine learning methods and algorithms and evaluation of the obtained results. As a result of the work, it is expected to determine the most effective vectorization and classification methods for the authorship attribution task of texts from social networks. The analysis of stylometric features will additionally confirm the possibility of using these methods for authorship attribution of text.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read
Internet Authorized users SPbPU Read
-> Internet Anonymous

Usage statistics

stat Access count: 1
Last 30 days: 1
Detailed usage statistics