Детальная информация
Название | Разработка расширения СУБД PostgreSQL для работы с нейронными сетями: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта» |
---|---|
Авторы | Худоложкин Андрей Андреевич |
Научный руководитель | Орлов Егор Сергеевич |
Организация | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Выходные сведения | Санкт-Петербург, 2025 |
Коллекция | Выпускные квалификационные работы ; Общая коллекция |
Тематика | искусственные нейронные сети ; базы данных ; компьютерное зрение ; интеграция ml и субд ; postgresql ; fastapi ; python ; pytorch ; docker ; классификация изображений ; artificial neural networks ; databases ; computer vision ; ml and dbms integration ; image classification |
Тип документа | Выпускная квалификационная работа бакалавра |
Тип файла | |
Язык | Русский |
Уровень высшего образования | Бакалавриат |
Код специальности ФГОС | 09.03.04 |
Группа специальностей ФГОС | 090000 - Информатика и вычислительная техника |
DOI | 10.18720/SPBPU/3/2025/vr/vr25-1154 |
Права доступа | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
Дополнительно | Новинка |
Ключ записи | ru\spstu\vkr\35789 |
Дата создания записи | 30.07.2025 |
Разрешенные действия
–
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа | Анонимные пользователи |
---|---|
Сеть | Интернет |
Данная работа посвящена созданию высокопроизводительной системы для обучения и развертывания моделей машинного обучения, интегрированной с СУБД PostgreSQL. Основная цель проекта — обеспечить эффективное взаимодействие между реляционными базами данных и современными ML-алгоритмами, сократив время разработки и упростив процесс внедрения в промышленные решения. В рамках проекта разработаны: расширение PostgreSQL для выполнения ML-запросов напрямую из СУБД, микросервисная архитектура на FastAPI и PyTorch для обработки сложных ML-задач, механизмы сериализации моделей с поддержкой версионирования и воспроизводимости, оптимизированные пайплайны обработки изображений для задач классификации. Реализованный функционал протестирован на трех типах датасетов: распознавание рукописных цифр (MNIST), классификация кошек и собак, диагностика болезней яблок. Разработанное решение может быть использовано в промышленных системах компьютерного зрения, автоматизированной диагностики и других областях, требующих интеграции ML с базами данных. Проект включает 21 функцию, 3 таблицы в PostgreSQL и более 1500 строк кода, демонстрируя эффективность предложенного подхода.
This thesis is devoted to the creation of a high-performance system for training and deploying machine learning models integrated with the PostgreSQL DBMS. The main goal of the project is to ensure effective interaction between relational databases and modern ML algorithms, reducing development time and simplifying the process of implementation in industrial solutions. The project has developed: a PostgreSQL extension for executing ML queries directly from the DBMS, a microservice architecture on FastAPI and PyTorch for processing complex ML tasks, model serialization mechanisms with support for versioning and reproducibility, and optimized image processing pipelines for classification tasks. The implemented functionality was tested on three types of datasets: handwritten digit recognition (MNIST), cat and dog classification, and apple disease diagnosis. The developed solution can be used in industrial computer vision systems, automated diagnostics, and other areas requiring ML integration with databases. The project includes 21 functions, 3 tables in PostgreSQL, and more than 1,500 lines of code, demonstrating the effectiveness of the proposed approach.
Место доступа | Группа пользователей | Действие |
---|---|---|
Локальная сеть ИБК СПбПУ | Все |
|
Интернет | Авторизованные пользователи СПбПУ |
|
Интернет | Анонимные пользователи |
|
- ВВЕДЕНИЕ
- ГЛАВА 1. ОБЗОР ПРЕДМЕТНОЙ ОБЛАСТИ
- 1.1. Интеграция машинного обучения в СУБД
- 1.1.1. MADlib: ML прямо в SQL
- 1.1.2. PL/Python
- 1.2 Облачные ML-платформы
- 1.2.1 Google BigQuery ML
- 1.2.2 AWS SageMaker
- 1.3 ETL+ML пайплайны
- 1.4 Итоги главы
- 1.1. Интеграция машинного обучения в СУБД
- ГЛАВА 2. РАЗРАБОТКА ФУНКЦИОНАЛА
- 2.1 Системная архитектура (ядро решения)
- 2.2 ML-микросервис (FastAPI)
- 2.3 Docker-оркестрация
- 2.3 Детали реализации ключевых компонентов
- 2.4 Работа с данными
- 2.5 Модель и обучение
- 2.6 Технические особенности реализации
- 2.7 Управление состоянием
- 2.8 Фоновые задачи
- 2.8 Протокол взаимодействия компонентов
- 2.8.1 Последовательность операций при обучении
- 2.8.2 Поток данных при предсказании
- 2.9 Сравнение с альтернативными подходами
- 2.9.1 Производительность: Оптимальное распределение ресурсов
- 2.9.2 Безопасность: Многоуровневая защитная модель
- 2.9.3. Гибкость: Полноценная ML-экосистема
- 2.10 Компромиссы реализации
- ГЛАВА 3. РЕЗУЛЬТАТЫ РАБОТЫ
- Итоги работы
- Заключение
- СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
- ПРИЛОЖЕНИЕ 1. ПРИМЕР КОНФИГУРАЦИИ DOCKER-COMPOSE
Количество обращений: 0
За последние 30 дней: 0