Details

Title Разработка модели машинного обучения для оценки возраста автора текста на русском языке: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии»
Creators Медведько Тимофей Васильевич
Scientific adviser Хитров Егор Германович
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint Санкт-Петербург, 2025
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects машинное обучение ; оценка возраста ; классификация текста ; предобработка текста ; machine learning ; age estimation ; text classification ; text preprocessing
Document type Bachelor graduation qualification work
File type PDF
Language Russian
Level of education Bachelor
Speciality code (FGOS) 09.03.03
Speciality group (FGOS) 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2025/vr/vr25-1501
Rights Доступ по паролю из сети Интернет (чтение)
Additionally New arrival
Record key ru\spstu\vkr\35709
Record create date 7/30/2025

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Group Anonymous
Network Internet

Объектом исследования являются русскоязычные комментарии пользователей «ВКонтакте». Цель работы — разработать модель машинного обучения для автоматической оценки возрастной группы автора текста. Методология включала сбор данных через официальный API vk_api, многоэтапную предобработку (нормализация, токенизация, удаление стоп-слов, лемматизация), TF–IDF-векторизацию, подбор гиперпараметров через GridSearchCV и построение ансамблевой модели (Logistic Regression, Multinomial Naive Bayes, калиброванный Linear SVC) с soft-voting. На корпусе из 700 тысяч комментариев достигнута точность 73 % при hold-out и 71 % при пятифолдовой валидации. Разработано оконное приложение на Tkinter для интерактивного определения возрастных групп по введённому тексту. Области применения: маркетинговый таргетинг, выявление фейковых аккаунтов, психолингвистический анализ.

The subject of this study is Russian-language user comments on «VK». The objective of the work is to develop a machine-learning model for the automatic estimation of an author’s age group based on their text. The methodology included data collection via the official vk_api, multi-stage preprocessing (normalization, tokenization, stop-word removal, lemmatization), TF–IDF vectorization, hyperparameter tuning with GridSearchCV, and the construction of an ensemble model (Logistic Regression, Multinomial Naive Bayes, calibrated Linear SVC) using soft voting. On a corpus of 700 thousands comments, an accuracy of 73 % was achieved with a hold-out set and 71 % under five-fold cross-validation. A windowed application was developed in Tkinter for interactive age-group prediction from user-entered text. Applications include marketing targeting, fake-account detection, and psycholinguistic analysis.

Network User group Action
ILC SPbPU Local Network All
Read
Internet Authorized users SPbPU
Read
Internet Anonymous
  • Разработка модели машинного обучения для оценки возраста автора текста на русском языке.
    • Введение
    • 1. Постановка задачи
    • 2. Сбор данных для обучения
    • 3. Предобработка данных и обучение модели
    • 4. Создание оконного приложения для пользователя, тестирование оконного приложения, k-fold валидация для сопоставления с предыдущими результатами
    • Заключение
    • Список использованных источников
    • Приложение 1 []Парсер VK-API
    • Приложение 2 []Предобработка данных и обучение моделей
    • Приложение 3 []Неэффективные признаки предобработки
    • Приложение 4 []Soft-voting ансамбль и экспорт пайплайна
    • Приложение 5 []Оконное приложение
    • Приложение 6 []Unit-тесты оконного приложения
    • Приложение 7 []K-fold валидация

Access count: 0 
Last 30 days: 0

Detailed usage statistics