Table | Card | RUSMARC | |
Allowed Actions: –
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group: Anonymous Network: Internet |
Annotation
Целью данной работы является разработка программного модуля-классификатора, позволяющего определять пол автора по тексту комментария на русском и английском языках. Объект исследования - текстовая информация, представленная в виде комментариев на русском и английском языках. Предмет исследования - методы и алгоритмы машинного обучения, используемые для предобработки, векторизации и классификации текстов с целью определения пола автора. Работа включала анализ существующих решений и исследований, обзор и выбор подходящих наборов данных, реализацию различных методов предобработки текстов, а также использование методов векторизации текста. Были исследованы и протестированы различные модели машинного обучения. В итоге были выбраны оптимальные модели для русскоязычных и англоязычных текстов: наивный Байес для русского и логистическая регрессия для английского языка. В процессе разработки было создано веб-приложение, обеспечивающее интеграцию выбранных моделей машинного обучения и предоставляющее пользователям возможность классификации текстов в реальном времени. Веб-приложение прошло комплексное тестирование, включающее серверное тестирование, unit-тестирование, тестирование и оценку производительности моделей. Применение алгоритмов определения пола способствует повышению эффективности многих процессов. В частности, в маркетинге и рекламе это позволяет настраивать рекламные кампании с учетом половых особенностей аудитории, в кибербезопасности помогает выявлять мошеннические схемы, а на социальных медиа платформах улучшает персонализацию контента.
The purpose of this work is to develop a software module-classifier that allows you to determine the gender of the author from the text of the comment in Russian and English. The object of the study is textual information presented in the form of comments in Russian and English. The subject of the research is machine learning methods and algorithms used for preprocessing, vectorization and classification of texts to determine the gender of the author. The work included analysis of existing solutions and research, review and selection of suitable data sets, implementation of various text preprocessing methods, and use of text vectorization methods. Various machine learning models have been researched and tested. As a result, the optimal models for Russian and English texts were selected: naive Bayes for Russian and logistic regression for English. During the development process, a web application was created that integrates selected machine learning models and provides users with the ability to classify texts in real time. The web application has undergone comprehensive testing, including server testing, unit testing, testing and evaluation of model performance. The use of gender determination algorithms helps improve the efficiency of many processes. In particular, in marketing and advertising, this allows you to customize advertising campaigns taking into account the gender characteristics of the audience, in cybersecurity it helps to identify fraudulent schemes, and on social media platforms it improves the personalization of content.
Document access rights
Network | User group | Action | ||||
---|---|---|---|---|---|---|
ILC SPbPU Local Network | All | |||||
Internet | Authorized users SPbPU | |||||
Internet | Anonymous |
Table of Contents
- Тема практики
- Введение
- 1. Обзор предметной области
- 2. Методология и подходы к решению задачи
- 3. Реализация
- 4. Тестирование
- Заключение
- Список использованных источников
- Приложение 1. Оптимизация алгоритмов машинного обучения для классификации текстов с использованием Optuna
- Приложение 2. Повторная оценка и финальный выбор моделей для классификации текстов
- Приложение 3. Серверная логика классификации пола по тексту с поддержкой Flask
- Приложение 4. Обработка формы и взаимодействие с сервером
- Приложение 5. Юнит-тесты для проверки функциональности formHandler.js
- Приложение 6. Юнит-тесты для проверки функциональности scrollChange.js
- Приложение 7. Юнит-тесты серверных функций приложения
- Приложение 8. Тестирование серверной части API предсказания пола
- Приложение 9. Тестирование скорости предсказания моделей классификации пола
Usage statistics
Access count: 0
Last 30 days: 0 Detailed usage statistics |