Детальная информация

Название Разработка модели машинного обучения для оценки возраста автора текста на русском языке: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии»
Авторы Медведько Тимофей Васильевич
Научный руководитель Хитров Егор Германович
Организация Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения Санкт-Петербург, 2025
Коллекция Выпускные квалификационные работы ; Общая коллекция
Тематика машинное обучение ; оценка возраста ; классификация текста ; предобработка текста ; machine learning ; age estimation ; text classification ; text preprocessing
Тип документа Выпускная квалификационная работа бакалавра
Тип файла PDF
Язык Русский
Уровень высшего образования Бакалавриат
Код специальности ФГОС 09.03.03
Группа специальностей ФГОС 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2025/vr/vr25-1501
Права доступа Доступ по паролю из сети Интернет (чтение)
Дополнительно Новинка
Ключ записи ru\spstu\vkr\35709
Дата создания записи 30.07.2025

Разрешенные действия

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа Анонимные пользователи
Сеть Интернет

Объектом исследования являются русскоязычные комментарии пользователей «ВКонтакте». Цель работы — разработать модель машинного обучения для автоматической оценки возрастной группы автора текста. Методология включала сбор данных через официальный API vk_api, многоэтапную предобработку (нормализация, токенизация, удаление стоп-слов, лемматизация), TF–IDF-векторизацию, подбор гиперпараметров через GridSearchCV и построение ансамблевой модели (Logistic Regression, Multinomial Naive Bayes, калиброванный Linear SVC) с soft-voting. На корпусе из 700 тысяч комментариев достигнута точность 73 % при hold-out и 71 % при пятифолдовой валидации. Разработано оконное приложение на Tkinter для интерактивного определения возрастных групп по введённому тексту. Области применения: маркетинговый таргетинг, выявление фейковых аккаунтов, психолингвистический анализ.

The subject of this study is Russian-language user comments on «VK». The objective of the work is to develop a machine-learning model for the automatic estimation of an author’s age group based on their text. The methodology included data collection via the official vk_api, multi-stage preprocessing (normalization, tokenization, stop-word removal, lemmatization), TF–IDF vectorization, hyperparameter tuning with GridSearchCV, and the construction of an ensemble model (Logistic Regression, Multinomial Naive Bayes, calibrated Linear SVC) using soft voting. On a corpus of 700 thousands comments, an accuracy of 73 % was achieved with a hold-out set and 71 % under five-fold cross-validation. A windowed application was developed in Tkinter for interactive age-group prediction from user-entered text. Applications include marketing targeting, fake-account detection, and psycholinguistic analysis.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать
Интернет Авторизованные пользователи СПбПУ
Прочитать
Интернет Анонимные пользователи
  • Разработка модели машинного обучения для оценки возраста автора текста на русском языке.
    • Введение
    • 1. Постановка задачи
    • 2. Сбор данных для обучения
    • 3. Предобработка данных и обучение модели
    • 4. Создание оконного приложения для пользователя, тестирование оконного приложения, k-fold валидация для сопоставления с предыдущими результатами
    • Заключение
    • Список использованных источников
    • Приложение 1 []Парсер VK-API
    • Приложение 2 []Предобработка данных и обучение моделей
    • Приложение 3 []Неэффективные признаки предобработки
    • Приложение 4 []Soft-voting ансамбль и экспорт пайплайна
    • Приложение 5 []Оконное приложение
    • Приложение 6 []Unit-тесты оконного приложения
    • Приложение 7 []K-fold валидация

Количество обращений: 0 
За последние 30 дней: 0

Подробная статистика