Details
Title | Разработка модели машинного обучения для оценки возраста автора текста на русском языке: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии» |
---|---|
Creators | Медведько Тимофей Васильевич |
Scientific adviser | Хитров Егор Германович |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Imprint | Санкт-Петербург, 2025 |
Collection | Выпускные квалификационные работы ; Общая коллекция |
Subjects | машинное обучение ; оценка возраста ; классификация текста ; предобработка текста ; machine learning ; age estimation ; text classification ; text preprocessing |
Document type | Bachelor graduation qualification work |
File type | |
Language | Russian |
Level of education | Bachelor |
Speciality code (FGOS) | 09.03.03 |
Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
DOI | 10.18720/SPBPU/3/2025/vr/vr25-1501 |
Rights | Доступ по паролю из сети Интернет (чтение) |
Additionally | New arrival |
Record key | ru\spstu\vkr\35709 |
Record create date | 7/30/2025 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Объектом исследования являются русскоязычные комментарии пользователей «ВКонтакте». Цель работы — разработать модель машинного обучения для автоматической оценки возрастной группы автора текста. Методология включала сбор данных через официальный API vk_api, многоэтапную предобработку (нормализация, токенизация, удаление стоп-слов, лемматизация), TF–IDF-векторизацию, подбор гиперпараметров через GridSearchCV и построение ансамблевой модели (Logistic Regression, Multinomial Naive Bayes, калиброванный Linear SVC) с soft-voting. На корпусе из 700 тысяч комментариев достигнута точность 73 % при hold-out и 71 % при пятифолдовой валидации. Разработано оконное приложение на Tkinter для интерактивного определения возрастных групп по введённому тексту. Области применения: маркетинговый таргетинг, выявление фейковых аккаунтов, психолингвистический анализ.
The subject of this study is Russian-language user comments on «VK». The objective of the work is to develop a machine-learning model for the automatic estimation of an author’s age group based on their text. The methodology included data collection via the official vk_api, multi-stage preprocessing (normalization, tokenization, stop-word removal, lemmatization), TF–IDF vectorization, hyperparameter tuning with GridSearchCV, and the construction of an ensemble model (Logistic Regression, Multinomial Naive Bayes, calibrated Linear SVC) using soft voting. On a corpus of 700 thousands comments, an accuracy of 73 % was achieved with a hold-out set and 71 % under five-fold cross-validation. A windowed application was developed in Tkinter for interactive age-group prediction from user-entered text. Applications include marketing targeting, fake-account detection, and psycholinguistic analysis.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
- Разработка модели машинного обучения для оценки возраста автора текста на русском языке.
- Введение
- 1. Постановка задачи
- 2. Сбор данных для обучения
- 3. Предобработка данных и обучение модели
- 4. Создание оконного приложения для пользователя, тестирование оконного приложения, k-fold валидация для сопоставления с предыдущими результатами
- Заключение
- Список использованных источников
- Приложение 1 []Парсер VK-API
- Приложение 2 []Предобработка данных и обучение моделей
- Приложение 3 []Неэффективные признаки предобработки
- Приложение 4 []Soft-voting ансамбль и экспорт пайплайна
- Приложение 5 []Оконное приложение
- Приложение 6 []Unit-тесты оконного приложения
- Приложение 7 []K-fold валидация
Access count: 0
Last 30 days: 0