Details
Title | Разработка методов прогнозирования популярности развлекательного видеоконтента на основе данных YouTube-канала: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии» |
---|---|
Creators | Соловьев Алексей Сергеевич |
Scientific adviser | Косторнова Александра Сергеевна |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Imprint | Санкт-Петербург, 2025 |
Collection | Выпускные квалификационные работы ; Общая коллекция |
Subjects | прогнозирование ; популярность ; видеоконтент ; youtube ; машинное обучение ; random forest ; нейронная сеть ; анализ данных ; python ; forecasting ; popularity ; video content ; machine learning ; neural network ; data analysis ; python. |
Document type | Bachelor graduation qualification work |
File type | |
Language | Russian |
Level of education | Bachelor |
Speciality code (FGOS) | 09.03.02 |
Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
DOI | 10.18720/SPBPU/3/2025/vr/vr25-13 |
Rights | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
Additionally | New arrival |
Record key | ru\spstu\vkr\34146 |
Record create date | 2/26/2025 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Тема выпускной квалификационной работы: «Разработка методов прогнозирования популярности развлекательного видеоконтента на основе данных YouTube-канала». Данная работа посвящена исследованию подходов к прогнозированию популярности видеоконтента на платформе YouTube. Основной целью исследования стало создание эффективных методов анализа и прогнозирования популярности видеороликов на основе данных YouTube-канала «Stand-Up Club #1», что включает в себя разработку и тестирование алгоритмов машинного обучения. В ходе исследования были решены следующие задачи: 1. Изучение актуальности проблемы прогнозирования популярности видеоконтента, основанной на аналитике современных цифровых платформ. 2. Обзор существующих исследований и методов в области предсказания популярности видеороликов. 3. Формирование набора данных, включающего метрики просмотров, лайков, комментариев и текстовые особенности заголовков. 4. Разработка алгоритмов машинного обучения, включая ансамблевый метод Random Forest и нейронные сети, для предсказания популярности. 5. Визуализация результатов работы моделей, анализ ошибок и оценка качества прогнозирования. Работа выполнена на базе данных YouTube-канала «Stand-Up Club #1», в процессе использовались инструменты Python, библиотеки для анализа данных (Pandas, NumPy), визуализации (Matplotlib, Seaborn), а также методы машинного обучения (Scikit-learn, PyTorch). Анализ проводился с использованием современных подходов, включая обработку текстовых данных методом Bag of Words, создание корреляционных матриц и масштабирование числовых признаков. В результате исследования был разработан эффективный подход к прогнозированию популярности видеоконтента, который продемонстрировал высокие метрики точности, полноты и значения ROC-AUC. Применение нейронной сети показало значительные успехи в классификации популярных видеороликов, в то время как Random Forest продемонстрировал преимущество в устойчивости к изменениям в данных. Были выявлены ключевые факторы, влияющие на популярность контента, такие как текстовые особенности заголовков и метрики активности зрителей.
The topic of the final qualification work: «Development of methods for predicting the popularity of entertainment video content based on YouTube channel data». This work is devoted to the study of approaches to predicting the popularity of video content on the YouTube platform. The main goal of the study was to create effective methods for analyzing and predicting the popularity of video clips based on data from YouTube channel «Stand-Up Club #1», which includes the development and testing of machine learning algorithms. In the course of the research the following tasks were accomplished: 1. Studying the relevance of the problem of video content popularity prediction based on analytics of modern digital platforms. 2. Review of existing research and methods in the field of video popularity prediction. 3. Generating a dataset including metrics of views, likes, comments and textual features of titles. 4. Developing machine learning algorithms, including Random Forest ensemble method and neural networks, for popularity prediction. 5. Visualization of model results, error analysis and evaluation of prediction quality. The work was performed on the basis of data from the YouTube channel «Stand-Up Club #1», in the process Python tools, libraries for data analysis (Pandas, NumPy), visualization (Matplotlib, Seaborn), as well as machine learning methods (Scikit-learn, PyTorch) were used. The analysis was conducted using modern approaches including Bag of Words text data processing, creation of correlation matrices and scaling of numerical features. The study resulted in the development of an effective approach for predicting video content popularity, which demonstrated high metrics of accuracy, completeness and ROC-AUC values. The application of neural network showed significant success in categorizing popular videos, while Random Forest showed an advantage in resilience to changes in the data. Key factors affecting content popularity such as textual features of titles and viewer activity metrics were identified.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
Access count: 1
Last 30 days: 1