Details
Title | Средства генерации синтетических данных для формирования датасета для работы с облачными вычислениями: выпускная квалификационная работа бакалавра: направление 02.03.02 «Фундаментальная информатика и информационные технологии» ; образовательная программа 02.03.02_02 «Информатика и компьютерные науки» |
---|---|
Creators | Сергеев Дмитрий Владимирович |
Scientific adviser | Самочадина Татьяна Николаевна |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Imprint | Санкт-Петербург, 2025 |
Collection | Выпускные квалификационные работы ; Общая коллекция |
Subjects | синтетические данные ; генерация данных ; статистические методы ; смеси распределений ; облачные вычисления ; машинное обучение ; synthetic data ; data generation ; statistical methods ; mixtures of distributions ; cloud computing ; machine learning |
Document type | Bachelor graduation qualification work |
File type | |
Language | Russian |
Level of education | Bachelor |
Speciality code (FGOS) | 02.03.02 |
Speciality group (FGOS) | 020000 - Компьютерные и информационные науки |
DOI | 10.18720/SPBPU/3/2025/vr/vr25-1499 |
Rights | Доступ по паролю из сети Интернет (чтение, печать) |
Additionally | New arrival |
Record key | ru\spstu\vkr\35707 |
Record create date | 7/30/2025 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Выпускная квалификационная работа посвящена разработке программного средства для генерации синтетических данных для задач облачных вычислений. В работе проведён анализ современных методов генерации синтетических данных, включая статистические подходы, методы машинного обучения и генеративные модели глубокого обучения. На основе анализа выбран статистический метод, основанный на подборе и аппроксимации распределений, включая смеси распределений. В рамках работы реализовано программное средство, обеспечивающее автоматический подбор параметров распределений методом максимального правдоподобия, построение смесей распределений, генерацию синтетических данных с учётом выбросов и временных меток, а также оценку качества с помощью статистических метрик. Проведён экспериментальный анализ, подтвердивший высокое качество синтетических данных и их пригодность для задач тестирования и обучения моделей машинного обучения. Разработанное средство отличается гибкостью, прозрачностью и возможностью адаптации под различные предметные области. Практическая значимость работы заключается в возможности использования разработанного инструмента для генерации реалистичных синтетических данных в условиях ограниченного доступа к реальным данным, что актуально для тестирования облачных систем и обучения моделей. В процессе выполнения работы были использованы следующие информационные технологии и ресурсы: язык программирования Python 3.12 с библиотеками pandas, numpy, scipy, scikit-learn и matplotlib для обработки и анализа данных; среда разработки PyCharm; операционная система Windows 10.
The graduate qualification work is devoted to the development of a software tool for generating synthetic data for cloud computing tasks. The paper analyzes modern methods of synthetic data generation, including statistical approaches, machine learning methods and generative deep learning models. Based on the analysis, a statistical method based on the selection and approximation of distributions, including mixtures of distributions, is selected. Within the framework of the work, we have implemented a software tool that provides automatic selection of parameters of distributions by the maximum likelihood method, construction of mixtures of distributions, generation of synthetic data considering outliers and timestamps, as well as quality assessment using statistical metrics. Experimental analysis was carried out, which confirmed the high quality of synthetic data and their suitability for testing and training of machine learning models. The developed tool is characterized by flexibility, transparency and adaptability to different subject areas. The practical significance of the work lies in the possibility of using the developed tool to generate realistic synthetic data in conditions of limited access to real data, which is relevant for testing cloud systems and training models. The following information technologies and resources were used in the course of the work: Python 3.12 programming language with pandas, numpy, scipy, scikit-learn and matplotlib libraries for data processing and analysis; PyCharm development environment; Windows 10 operating system.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
Access count: 0
Last 30 days: 0