Детальная информация
Название | Разработка модели машинного обучения для оценки возраста автора текста на русском языке: выпускная квалификационная работа бакалавра: направление 09.03.03 «Прикладная информатика» ; образовательная программа 09.03.03_03 «Интеллектуальные инфокоммуникационные технологии» |
---|---|
Авторы | Медведько Тимофей Васильевич |
Научный руководитель | Хитров Егор Германович |
Организация | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Выходные сведения | Санкт-Петербург, 2025 |
Коллекция | Выпускные квалификационные работы ; Общая коллекция |
Тематика | машинное обучение ; оценка возраста ; классификация текста ; предобработка текста ; machine learning ; age estimation ; text classification ; text preprocessing |
Тип документа | Выпускная квалификационная работа бакалавра |
Тип файла | |
Язык | Русский |
Уровень высшего образования | Бакалавриат |
Код специальности ФГОС | 09.03.03 |
Группа специальностей ФГОС | 090000 - Информатика и вычислительная техника |
DOI | 10.18720/SPBPU/3/2025/vr/vr25-1501 |
Права доступа | Доступ по паролю из сети Интернет (чтение) |
Дополнительно | Новинка |
Ключ записи | ru\spstu\vkr\35709 |
Дата создания записи | 30.07.2025 |
Разрешенные действия
–
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа | Анонимные пользователи |
---|---|
Сеть | Интернет |
Объектом исследования являются русскоязычные комментарии пользователей «ВКонтакте». Цель работы — разработать модель машинного обучения для автоматической оценки возрастной группы автора текста. Методология включала сбор данных через официальный API vk_api, многоэтапную предобработку (нормализация, токенизация, удаление стоп-слов, лемматизация), TF–IDF-векторизацию, подбор гиперпараметров через GridSearchCV и построение ансамблевой модели (Logistic Regression, Multinomial Naive Bayes, калиброванный Linear SVC) с soft-voting. На корпусе из 700 тысяч комментариев достигнута точность 73 % при hold-out и 71 % при пятифолдовой валидации. Разработано оконное приложение на Tkinter для интерактивного определения возрастных групп по введённому тексту. Области применения: маркетинговый таргетинг, выявление фейковых аккаунтов, психолингвистический анализ.
The subject of this study is Russian-language user comments on «VK». The objective of the work is to develop a machine-learning model for the automatic estimation of an author’s age group based on their text. The methodology included data collection via the official vk_api, multi-stage preprocessing (normalization, tokenization, stop-word removal, lemmatization), TF–IDF vectorization, hyperparameter tuning with GridSearchCV, and the construction of an ensemble model (Logistic Regression, Multinomial Naive Bayes, calibrated Linear SVC) using soft voting. On a corpus of 700 thousands comments, an accuracy of 73 % was achieved with a hold-out set and 71 % under five-fold cross-validation. A windowed application was developed in Tkinter for interactive age-group prediction from user-entered text. Applications include marketing targeting, fake-account detection, and psycholinguistic analysis.
Место доступа | Группа пользователей | Действие |
---|---|---|
Локальная сеть ИБК СПбПУ | Все |
|
Интернет | Авторизованные пользователи СПбПУ |
|
Интернет | Анонимные пользователи |
|
- Разработка модели машинного обучения для оценки возраста автора текста на русском языке.
- Введение
- 1. Постановка задачи
- 2. Сбор данных для обучения
- 3. Предобработка данных и обучение модели
- 4. Создание оконного приложения для пользователя, тестирование оконного приложения, k-fold валидация для сопоставления с предыдущими результатами
- Заключение
- Список использованных источников
- Приложение 1 []Парсер VK-API
- Приложение 2 []Предобработка данных и обучение моделей
- Приложение 3 []Неэффективные признаки предобработки
- Приложение 4 []Soft-voting ансамбль и экспорт пайплайна
- Приложение 5 []Оконное приложение
- Приложение 6 []Unit-тесты оконного приложения
- Приложение 7 []K-fold валидация
Количество обращений: 0
За последние 30 дней: 0