Details
| Title | Прогнозирование уровня загрязнения воздуха на основе публичных данных: выпускная квалификационная работа бакалавра: направление 09.03.02 «Информационные системы и технологии» ; образовательная программа 09.03.02_02 «Информационные системы и технологии» = Forecasting the level of air pollution on the basis of public data |
|---|---|
| Creators | Анищук Илья Андреевич |
| Scientific adviser | Селиверстов Ярослав Александрович |
| Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
| Imprint | Санкт-Петербург, 2025 |
| Collection | Выпускные квалификационные работы ; Общая коллекция |
| Subjects | прогнозирование ; загрязнение воздуха ; машинное обучение ; линейная регрессия ; Random Forest ; анализ данных ; Python ; forecasting ; air pollution ; machine learning ; linear regression ; data analysis |
| Document type | Bachelor graduation qualification work |
| Language | Russian |
| Level of education | Bachelor |
| Speciality code (FGOS) | 09.03.02 |
| Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
| DOI | 10.18720/SPBPU/3/2025/vr/vr26-1031 |
| Rights | Доступ по паролю из сети Интернет (чтение) |
| Additionally | New arrival |
| Record key | ru\spstu\vkr\40584 |
| Record create date | 6/17/2026 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
| Group | Anonymous |
|---|---|
| Network | Internet |
Тема выпускной квалификационной работы: «Прогнозирование уровня загрязнения воздуха на основе публичных данных». Данная работа посвящена исследованию подходов к прогнозированию уровня загрязнения воздуха на основе публичных данных. Основной целью исследования стало создание эффективных методов анализа и прогнозирования уровня загрязнения воздуха на основе публичных данных, что включает в себя разработку и тестирование алгоритмов машинного обучения с помощью линейной регрессии и ансамбля деревьев (Random Forest). В ходе исследования были решены следующие задачи: 1. Изучение актуальности проблемы прогнозирования уровня загрузнения воздуха. 2. Обзор существующих исследований и методов в области прогнозирования уровня загрузнения воздуха. 3. Разработка математической модели 4. Обоснование выбора программного инструментария. 5. Разработка алгоритмов машинного обучения, включая линейную регрессию и ансамблевый метод Random Forest для прогнозирования уровня загрузнения воздуха на основе публичных данных. 6. Визуализация результатов работы моделей, анализ ошибок и оценка качества прогнозирования. Работа выполнена на базе данных датасета «Air-Pollution-Forecasting», в процессе использовались инструменты Python, библиотеки для анализа данных (Pandas, NumPy), визуализации (Matplotlib, Seaborn), а также методы машинного обучения (линейная регрессия и ансамблевый метод Random Forest). В результате исследования был разработан эффективный подход к прогнозированию прогнозирования уровня загрузнения воздуха на основе публичных данных, который продемонстрировал высокие показатели точности, полноты и значений. При сравнительном анализе линейной регрессии и случайного леса выявлено, что ансамблевый метод обеспечивает более гибкое описание нелинейных зависимостей между признаками и целевой переменной, что может быть особенно важно в периоды резких колебаний загрязнения.
The topic of the final qualification work: «Forecasting the level of air pollution on the basis of public data». This work is devoted to the study of approaches to predicting the level of air pollution on the basis of public data. The main goal of the research was to create effective methods for analyzing and predicting the level of air pollution based on public data, which includes the development and testing of machine learning algorithms using linear regression and tree ensemble (Random Forest). The following tasks were accomplished in the course of the research: 1. Study the relevance of the problem of predicting air pollution levels. 2. Reviewing the existing research and methods in the field of air loading level prediction. 3. Development of the mathematical model 4. Justification of the choice of software tools. 5. Development of machine learning algorithms including linear regression and Random Forest ensemble method for predicting air loading level based on public data. 6. Visualization of model results, error analysis and evaluation of prediction quality. The work was performed on the Air-Pollution-Forecasting dataset data, in the process Python tools, libraries for data analysis (Pandas, NumPy), visualization (Matplotlib, Seaborn), and machine learning methods (linear regression and Random Forest ensemble method) were used. As a result of the study, an effective approach for predicting air loading prediction from public data was developed and demonstrated high accuracy, completeness, and value. A comparative analysis of linear regression and Random Forest revealed that the ensemble method provides a more flexible description of non-linear relationships between attributes and the target variable, which may be particularly important during periods of sharp pollution fluctuations.
| Network | User group | Action |
|---|---|---|
| ILC SPbPU Local Network | All |
|
| Internet | Authorized users SPbPU |
|
| Internet | Anonymous |
|