Детальная информация

Название: Определение авторства естественно-языковых текстов в социальных сетях: выпускная квалификационная работа бакалавра: направление 10.03.01 «Информационная безопасность» ; образовательная программа 10.03.01_03 «Безопасность компьютерных систем»
Авторы: Журавков Даниил Андреевич
Научный руководитель: Овасапян Тигран Джаникович
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения: Санкт-Петербург, 2024
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: классификация текста; машинное обучение; набор данных; обработка естественного языка; стилометрические признаки; текстовые корпуса; text classification; machine learning; data set; natural language processing; stylometric features; text corps
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 10.03.01
Группа специальностей ФГОС: 100000 - Информационная безопасность
DOI: 10.18720/SPBPU/3/2024/vr/vr24-1886
Права доступа: Доступ по паролю из сети Интернет (чтение)
Дополнительно: Новинка
Ключ записи: ru\spstu\vkr\28906

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Тема выпускной квалификационной работы: «Определение авторства естественно-языковых текстов в социальных сетях» Цель работы - определение оптимального метода для однозначной идентификации автора естественно-языковых текстов из социальной сети Telegram с использованием современных алгоритмов машинного обучения и методов векторизации текстов. Предметом исследования являются методы и алгоритмы машинного обучения, применяемые для идентификации авторства естественно-языковых текстов из социальных сетей, включающие векторизацию текстов и классификацию авторства. Задачи, решаемые в ходе исследования: 1. Исследование существующих методов и алгоритмов машинного обучения, применяемых для задачи определения авторства. 2. Подготовка объекта исследования, содержащего нормализованные естественно-языковые тексты различных авторов в социальной сети Telegram. 3. Обучение методов и алгоритмов машинного обучения для определения авторства естественно языковых текстов. 4. Тестирование методов и алгоритмов машинного обучения и оценка полученных результатов. В результате работы ожидается определить наиболее эффективные методы векторизации и классификации для задачи определения авторства текстов из социальных сетей. Анализ стилометрических признаков дополнительно подтвердит возможность использования этих методов для авторской атрибуции текстов.

The topic of the final qualification work: "Authorship Attribution of Natural Language Texts in Social Networks" The aim of this work is to determine the optimal method for unambiguous identification of the author of natural language texts from the social network Telegram using modern machine learning algorithms and text vectorization methods. The subject of the research includes methods and algorithms of machine learning applied to author identification of natural language texts from social networks, including text vectorization and author classification. The tasks to be solved during the research are as follows: 1. Investigation of existing methods and machine learning algorithms applied to the task of author identification. 2. Preparation of the research object, containing normalized natural language texts from various authors in the social network Telegram. 3. Training of machine learning methods and algorithms for author identification of natural language texts. 4. Testing of machine learning methods and algorithms and evaluation of the obtained results. As a result of the work, it is expected to determine the most effective vectorization and classification methods for the authorship attribution task of texts from social networks. The analysis of stylometric features will additionally confirm the possibility of using these methods for authorship attribution of text.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать
Интернет Авторизованные пользователи СПбПУ Прочитать
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 1
За последние 30 дней: 1
Подробная статистика