Прогнозирование уровня загрязнения воздуха на основе публичных данных: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии» = Forecasting the level of air pollution on the basis of public data

Анищук, Илья Андреевич

Details

Title	Прогнозирование уровня загрязнения воздуха на основе публичных данных: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии» = Forecasting the level of air pollution on the basis of public data
Creators	Анищук Илья Андреевич
Scientific adviser	Селиверстов Ярослав Александрович
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint	Санкт-Петербург, 2025
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	прогнозирование ; загрязнение воздуха ; машинное обучение ; линейная регрессия ; Random Forest ; анализ данных ; Python ; forecasting ; air pollution ; machine learning ; linear regression ; data analysis
Document type	Bachelor graduation qualification work
Language	Russian
Level of education	Bachelor
Speciality code (FGOS)	09.03.02
Speciality group (FGOS)	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2025/vr/vr26-1031
Rights	Доступ по паролю из сети Интернет (чтение)
Additionally	New arrival
Record key	ru\spstu\vkr\40584
Record create date	6/17/2026

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Тема выпускной квалификационной работы: «Прогнозирование уровня загрязнения воздуха на основе публичных данных». Данная работа посвящена исследованию подходов к прогнозированию уровня загрязнения воздуха на основе публичных данных. Основной целью исследования стало создание эффективных методов анализа и прогнозирования уровня загрязнения воздуха на основе публичных данных, что включает в себя разработку и тестирование алгоритмов машинного обучения с помощью линейной регрессии и ансамбля деревьев (Random Forest). В ходе исследования были решены следующие задачи: 1. Изучение актуальности проблемы прогнозирования уровня загрузнения воздуха. 2. Обзор существующих исследований и методов в области прогнозирования уровня загрузнения воздуха. 3. Разработка математической модели 4. Обоснование выбора программного инструментария. 5. Разработка алгоритмов машинного обучения, включая линейную регрессию и ансамблевый метод Random Forest для прогнозирования уровня загрузнения воздуха на основе публичных данных. 6. Визуализация результатов работы моделей, анализ ошибок и оценка качества прогнозирования. Работа выполнена на базе данных датасета «Air-Pollution-Forecasting», в процессе использовались инструменты Python, библиотеки для анализа данных (Pandas, NumPy), визуализации (Matplotlib, Seaborn), а также методы машинного обучения (линейная регрессия и ансамблевый метод Random Forest). В результате исследования был разработан эффективный подход к прогнозированию прогнозирования уровня загрузнения воздуха на основе публичных данных, который продемонстрировал высокие показатели точности, полноты и значений. При сравнительном анализе линейной регрессии и случайного леса выявлено, что ансамблевый метод обеспечивает более гибкое описание нелинейных зависимостей между признаками и целевой переменной, что может быть особенно важно в периоды резких колебаний загрязнения.

The topic of the final qualification work: «Forecasting the level of air pollution on the basis of public data». This work is devoted to the study of approaches to predicting the level of air pollution on the basis of public data. The main goal of the research was to create effective methods for analyzing and predicting the level of air pollution based on public data, which includes the development and testing of machine learning algorithms using linear regression and tree ensemble (Random Forest). The following tasks were accomplished in the course of the research: 1. Study the relevance of the problem of predicting air pollution levels. 2. Reviewing the existing research and methods in the field of air loading level prediction. 3. Development of the mathematical model 4. Justification of the choice of software tools. 5. Development of machine learning algorithms including linear regression and Random Forest ensemble method for predicting air loading level based on public data. 6. Visualization of model results, error analysis and evaluation of prediction quality. The work was performed on the Air-Pollution-Forecasting dataset data, in the process Python tools, libraries for data analysis (Pandas, NumPy), visualization (Matplotlib, Seaborn), and machine learning methods (linear regression and Random Forest ensemble method) were used. As a result of the study, an effective approach for predicting air loading prediction from public data was developed and demonstrated high accuracy, completeness, and value. A comparative analysis of linear regression and Random Forest revealed that the ensemble method provides a more flexible description of non-linear relationships between attributes and the target variable, which may be particularly important during periods of sharp pollution fluctuations.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

...