Детальная информация

Название: Разработка программного модуля-классификатора для определения пола автора по тексту комментария: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии»
Авторы: Рыжова Милана Алексеевна
Научный руководитель: Хитров Егор Германович
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения: Санкт-Петербург, 2024
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: машинное обучение; классификация текста; двуязычный анализ; половая идентификация; оптимизация гиперпараметров; machine learning; text classification; bilingual analysis; gender identification; hyperparameter optimization
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 09.03.03
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/3/2024/vr/vr24-2879
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Дополнительно: Новинка
Ключ записи: ru\spstu\vkr\30342

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Целью данной работы является разработка программного модуля-классификатора, позволяющего определять пол автора по тексту комментария на русском и английском языках. Объект исследования - текстовая информация, представленная в виде комментариев на русском и английском языках. Предмет исследования - методы и алгоритмы машинного обучения, используемые для предобработки, векторизации и классификации текстов с целью определения пола автора. Работа включала анализ существующих решений и исследований, обзор и выбор подходящих наборов данных, реализацию различных методов предобработки текстов, а также использование методов векторизации текста. Были исследованы и протестированы различные модели машинного обучения. В итоге были выбраны оптимальные модели для русскоязычных и англоязычных текстов: наивный Байес для русского и логистическая регрессия для английского языка. В процессе разработки было создано веб-приложение, обеспечивающее интеграцию выбранных моделей машинного обучения и предоставляющее пользователям возможность классификации текстов в реальном времени. Веб-приложение прошло комплексное тестирование, включающее серверное тестирование, unit-тестирование, тестирование и оценку производительности моделей. Применение алгоритмов определения пола способствует повышению эффективности многих процессов. В частности, в маркетинге и рекламе это позволяет настраивать рекламные кампании с учетом половых особенностей аудитории, в кибербезопасности помогает выявлять мошеннические схемы, а на социальных медиа платформах улучшает персонализацию контента.

The purpose of this work is to develop a software module-classifier that allows you to determine the gender of the author from the text of the comment in Russian and English. The object of the study is textual information presented in the form of comments in Russian and English. The subject of the research is machine learning methods and algorithms used for preprocessing, vectorization and classification of texts to determine the gender of the author. The work included analysis of existing solutions and research, review and selection of suitable data sets, implementation of various text preprocessing methods, and use of text vectorization methods. Various machine learning models have been researched and tested. As a result, the optimal models for Russian and English texts were selected: naive Bayes for Russian and logistic regression for English. During the development process, a web application was created that integrates selected machine learning models and provides users with the ability to classify texts in real time. The web application has undergone comprehensive testing, including server testing, unit testing, testing and evaluation of model performance. The use of gender determination algorithms helps improve the efficiency of many processes. In particular, in marketing and advertising, this allows you to customize advertising campaigns taking into account the gender characteristics of the audience, in cybersecurity it helps to identify fraudulent schemes, and on social media platforms it improves the personalization of content.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Оглавление

  • Тема практики
    • Введение
    • 1. Обзор предметной области
    • 2. Методология и подходы к решению задачи
    • 3. Реализация
    • 4. Тестирование
    • Заключение
    • Список использованных источников
    • Приложение 1. Оптимизация алгоритмов машинного обучения для классификации текстов с использованием Optuna
    • Приложение 2. Повторная оценка и финальный выбор моделей для классификации текстов
    • Приложение 3. Серверная логика классификации пола по тексту с поддержкой Flask
    • Приложение 4. Обработка формы и взаимодействие с сервером
    • Приложение 5. Юнит-тесты для проверки функциональности formHandler.js
    • Приложение 6. Юнит-тесты для проверки функциональности scrollChange.js
    • Приложение 7. Юнит-тесты серверных функций приложения
    • Приложение 8. Тестирование серверной части API предсказания пола
    • Приложение 9. Тестирование скорости предсказания моделей классификации пола

Статистика использования

stat Количество обращений: 0
За последние 30 дней: 0
Подробная статистика