Details

Title: Разработка программного модуля-классификатора для определения пола автора по тексту комментария: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии»
Creators: Рыжова Милана Алексеевна
Scientific adviser: Хитров Егор Германович
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint: Санкт-Петербург, 2024
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: машинное обучение; классификация текста; двуязычный анализ; половая идентификация; оптимизация гиперпараметров; machine learning; text classification; bilingual analysis; gender identification; hyperparameter optimization
Document type: Bachelor graduation qualification work
File type: PDF
Language: Russian
Level of education: Bachelor
Speciality code (FGOS): 09.03.03
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/3/2024/vr/vr24-2879
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally: New arrival
Record key: ru\spstu\vkr\30342

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Целью данной работы является разработка программного модуля-классификатора, позволяющего определять пол автора по тексту комментария на русском и английском языках. Объект исследования - текстовая информация, представленная в виде комментариев на русском и английском языках. Предмет исследования - методы и алгоритмы машинного обучения, используемые для предобработки, векторизации и классификации текстов с целью определения пола автора. Работа включала анализ существующих решений и исследований, обзор и выбор подходящих наборов данных, реализацию различных методов предобработки текстов, а также использование методов векторизации текста. Были исследованы и протестированы различные модели машинного обучения. В итоге были выбраны оптимальные модели для русскоязычных и англоязычных текстов: наивный Байес для русского и логистическая регрессия для английского языка. В процессе разработки было создано веб-приложение, обеспечивающее интеграцию выбранных моделей машинного обучения и предоставляющее пользователям возможность классификации текстов в реальном времени. Веб-приложение прошло комплексное тестирование, включающее серверное тестирование, unit-тестирование, тестирование и оценку производительности моделей. Применение алгоритмов определения пола способствует повышению эффективности многих процессов. В частности, в маркетинге и рекламе это позволяет настраивать рекламные кампании с учетом половых особенностей аудитории, в кибербезопасности помогает выявлять мошеннические схемы, а на социальных медиа платформах улучшает персонализацию контента.

The purpose of this work is to develop a software module-classifier that allows you to determine the gender of the author from the text of the comment in Russian and English. The object of the study is textual information presented in the form of comments in Russian and English. The subject of the research is machine learning methods and algorithms used for preprocessing, vectorization and classification of texts to determine the gender of the author. The work included analysis of existing solutions and research, review and selection of suitable data sets, implementation of various text preprocessing methods, and use of text vectorization methods. Various machine learning models have been researched and tested. As a result, the optimal models for Russian and English texts were selected: naive Bayes for Russian and logistic regression for English. During the development process, a web application was created that integrates selected machine learning models and provides users with the ability to classify texts in real time. The web application has undergone comprehensive testing, including server testing, unit testing, testing and evaluation of model performance. The use of gender determination algorithms helps improve the efficiency of many processes. In particular, in marketing and advertising, this allows you to customize advertising campaigns taking into account the gender characteristics of the audience, in cybersecurity it helps to identify fraudulent schemes, and on social media platforms it improves the personalization of content.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users SPbPU Read Print Download
-> Internet Anonymous

Table of Contents

  • Тема практики
    • Введение
    • 1. Обзор предметной области
    • 2. Методология и подходы к решению задачи
    • 3. Реализация
    • 4. Тестирование
    • Заключение
    • Список использованных источников
    • Приложение 1. Оптимизация алгоритмов машинного обучения для классификации текстов с использованием Optuna
    • Приложение 2. Повторная оценка и финальный выбор моделей для классификации текстов
    • Приложение 3. Серверная логика классификации пола по тексту с поддержкой Flask
    • Приложение 4. Обработка формы и взаимодействие с сервером
    • Приложение 5. Юнит-тесты для проверки функциональности formHandler.js
    • Приложение 6. Юнит-тесты для проверки функциональности scrollChange.js
    • Приложение 7. Юнит-тесты серверных функций приложения
    • Приложение 8. Тестирование серверной части API предсказания пола
    • Приложение 9. Тестирование скорости предсказания моделей классификации пола

Usage statistics

stat Access count: 0
Last 30 days: 0
Detailed usage statistics