Детальная информация

Название Средства генерации синтетических данных для формирования датасета для работы с облачными вычислениями: выпускная квалификационная работа бакалавра: направление 02.03.02 «Фундаментальная информатика и информационные технологии» ; образовательная программа 02.03.02_02 «Информатика и компьютерные науки»
Авторы Сергеев Дмитрий Владимирович
Научный руководитель Самочадина Татьяна Николаевна
Организация Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения Санкт-Петербург, 2025
Коллекция Выпускные квалификационные работы ; Общая коллекция
Тематика синтетические данные ; генерация данных ; статистические методы ; смеси распределений ; облачные вычисления ; машинное обучение ; synthetic data ; data generation ; statistical methods ; mixtures of distributions ; cloud computing ; machine learning
Тип документа Выпускная квалификационная работа бакалавра
Тип файла PDF
Язык Русский
Уровень высшего образования Бакалавриат
Код специальности ФГОС 02.03.02
Группа специальностей ФГОС 020000 - Компьютерные и информационные науки
DOI 10.18720/SPBPU/3/2025/vr/vr25-1499
Права доступа Доступ по паролю из сети Интернет (чтение, печать)
Дополнительно Новинка
Ключ записи ru\spstu\vkr\35707
Дата создания записи 30.07.2025

Разрешенные действия

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа Анонимные пользователи
Сеть Интернет

Выпускная квалификационная работа посвящена разработке программного средства для генерации синтетических данных для задач облачных вычислений. В работе проведён анализ современных методов генерации синтетических данных, включая статистические подходы, методы машинного обучения и генеративные модели глубокого обучения. На основе анализа выбран статистический метод, основанный на подборе и аппроксимации распределений, включая смеси распределений. В рамках работы реализовано программное средство, обеспечивающее автоматический подбор параметров распределений методом максимального правдоподобия, построение смесей распределений, генерацию синтетических данных с учётом выбросов и временных меток, а также оценку качества с помощью статистических метрик. Проведён экспериментальный анализ, подтвердивший высокое качество синтетических данных и их пригодность для задач тестирования и обучения моделей машинного обучения. Разработанное средство отличается гибкостью, прозрачностью и возможностью адаптации под различные предметные области. Практическая значимость работы заключается в возможности использования разработанного инструмента для генерации реалистичных синтетических данных в условиях ограниченного доступа к реальным данным, что актуально для тестирования облачных систем и обучения моделей. В процессе выполнения работы были использованы следующие информационные технологии и ресурсы: язык программирования Python 3.12 с библиотеками pandas, numpy, scipy, scikit-learn и matplotlib для обработки и анализа данных; среда разработки PyCharm; операционная система Windows 10.

The graduate qualification work is devoted to the development of a software tool for generating synthetic data for cloud computing tasks. The paper analyzes modern methods of synthetic data generation, including statistical approaches, machine learning methods and generative deep learning models. Based on the analysis, a statistical method based on the selection and approximation of distributions, including mixtures of distributions, is selected. Within the framework of the work, we have implemented a software tool that provides automatic selection of parameters of distributions by the maximum likelihood method, construction of mixtures of distributions, generation of synthetic data considering outliers and timestamps, as well as quality assessment using statistical metrics. Experimental analysis was carried out, which confirmed the high quality of synthetic data and their suitability for testing and training of machine learning models. The developed tool is characterized by flexibility, transparency and adaptability to different subject areas. The practical significance of the work lies in the possibility of using the developed tool to generate realistic synthetic data in conditions of limited access to real data, which is relevant for testing cloud systems and training models. The following information technologies and resources were used in the course of the work: Python 3.12 programming language with pandas, numpy, scipy, scikit-learn and matplotlib libraries for data processing and analysis; PyCharm development environment; Windows 10 operating system.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать Печать
Интернет Авторизованные пользователи СПбПУ
Прочитать Печать
Интернет Анонимные пользователи

Количество обращений: 0 
За последние 30 дней: 0

Подробная статистика