Разработка расширения СУБД PostgreSQL для работы с нейронными сетями: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»

Худоложкин, Андрей Андреевич

Details

Title	Разработка расширения СУБД PostgreSQL для работы с нейронными сетями: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»
Creators	Худоложкин Андрей Андреевич
Scientific adviser	Орлов Егор Сергеевич
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint	Санкт-Петербург, 2025
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	искусственные нейронные сети ; базы данных ; компьютерное зрение ; интеграция ml и субд ; postgresql ; fastapi ; python ; pytorch ; docker ; классификация изображений ; artificial neural networks ; databases ; computer vision ; ml and dbms integration ; image classification
Document type	Bachelor graduation qualification work
File type	PDF
Language	Russian
Level of education	Bachelor
Speciality code (FGOS)	09.03.04
Speciality group (FGOS)	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2025/vr/vr25-1154
Rights	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally	New arrival
Record key	ru\spstu\vkr\35789
Record create date	7/30/2025

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Данная работа посвящена созданию высокопроизводительной системы для обучения и развертывания моделей машинного обучения, интегрированной с СУБД PostgreSQL. Основная цель проекта — обеспечить эффективное взаимодействие между реляционными базами данных и современными ML-алгоритмами, сократив время разработки и упростив процесс внедрения в промышленные решения. В рамках проекта разработаны: расширение PostgreSQL для выполнения ML-запросов напрямую из СУБД, микросервисная архитектура на FastAPI и PyTorch для обработки сложных ML-задач, механизмы сериализации моделей с поддержкой версионирования и воспроизводимости, оптимизированные пайплайны обработки изображений для задач классификации. Реализованный функционал протестирован на трех типах датасетов: распознавание рукописных цифр (MNIST), классификация кошек и собак, диагностика болезней яблок. Разработанное решение может быть использовано в промышленных системах компьютерного зрения, автоматизированной диагностики и других областях, требующих интеграции ML с базами данных. Проект включает 21 функцию, 3 таблицы в PostgreSQL и более 1500 строк кода, демонстрируя эффективность предложенного подхода.

This thesis is devoted to the creation of a high-performance system for training and deploying machine learning models integrated with the PostgreSQL DBMS. The main goal of the project is to ensure effective interaction between relational databases and modern ML algorithms, reducing development time and simplifying the process of implementation in industrial solutions. The project has developed: a PostgreSQL extension for executing ML queries directly from the DBMS, a microservice architecture on FastAPI and PyTorch for processing complex ML tasks, model serialization mechanisms with support for versioning and reproducibility, and optimized image processing pipelines for classification tasks. The implemented functionality was tested on three types of datasets: handwritten digit recognition (MNIST), cat and dog classification, and apple disease diagnosis. The developed solution can be used in industrial computer vision systems, automated diagnostics, and other areas requiring ML integration with databases. The project includes 21 functions, 3 tables in PostgreSQL, and more than 1,500 lines of code, demonstrating the effectiveness of the proposed approach.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

ВВЕДЕНИЕ
ГЛАВА 1. ОБЗОР ПРЕДМЕТНОЙ ОБЛАСТИ
- 1.1. Интеграция машинного обучения в СУБД
  - 1.1.1. MADlib: ML прямо в SQL
  - 1.1.2. PL/Python
- 1.2 Облачные ML-платформы
  - 1.2.1 Google BigQuery ML
  - 1.2.2 AWS SageMaker
- 1.3 ETL+ML пайплайны
- 1.4 Итоги главы
ГЛАВА 2. РАЗРАБОТКА ФУНКЦИОНАЛА
- 2.1 Системная архитектура (ядро решения)
- 2.2 ML-микросервис (FastAPI)
- 2.3 Docker-оркестрация
- 2.3 Детали реализации ключевых компонентов
- 2.4 Работа с данными
- 2.5 Модель и обучение
- 2.6 Технические особенности реализации
- 2.7 Управление состоянием
- 2.8 Фоновые задачи
- 2.8 Протокол взаимодействия компонентов
  - 2.8.1 Последовательность операций при обучении
  - 2.8.2 Поток данных при предсказании
- 2.9 Сравнение с альтернативными подходами
  - 2.9.1 Производительность: Оптимальное распределение ресурсов
  - 2.9.2 Безопасность: Многоуровневая защитная модель
  - 2.9.3. Гибкость: Полноценная ML-экосистема
- 2.10 Компромиссы реализации
ГЛАВА 3. РЕЗУЛЬТАТЫ РАБОТЫ
Итоги работы
Заключение
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
ПРИЛОЖЕНИЕ 1. ПРИМЕР КОНФИГУРАЦИИ DOCKER-COMPOSE

Access count: 0
Last 30 days: 0

Detailed usage statistics