Детальная информация
Название | Средства генерации синтетических данных для формирования датасета для работы с облачными вычислениями: выпускная квалификационная работа бакалавра: направление 02.03.02 «Фундаментальная информатика и информационные технологии» ; образовательная программа 02.03.02_02 «Информатика и компьютерные науки» |
---|---|
Авторы | Сергеев Дмитрий Владимирович |
Научный руководитель | Самочадина Татьяна Николаевна |
Организация | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Выходные сведения | Санкт-Петербург, 2025 |
Коллекция | Выпускные квалификационные работы ; Общая коллекция |
Тематика | синтетические данные ; генерация данных ; статистические методы ; смеси распределений ; облачные вычисления ; машинное обучение ; synthetic data ; data generation ; statistical methods ; mixtures of distributions ; cloud computing ; machine learning |
Тип документа | Выпускная квалификационная работа бакалавра |
Тип файла | |
Язык | Русский |
Уровень высшего образования | Бакалавриат |
Код специальности ФГОС | 02.03.02 |
Группа специальностей ФГОС | 020000 - Компьютерные и информационные науки |
DOI | 10.18720/SPBPU/3/2025/vr/vr25-1499 |
Права доступа | Доступ по паролю из сети Интернет (чтение, печать) |
Дополнительно | Новинка |
Ключ записи | ru\spstu\vkr\35707 |
Дата создания записи | 30.07.2025 |
Разрешенные действия
–
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа | Анонимные пользователи |
---|---|
Сеть | Интернет |
Выпускная квалификационная работа посвящена разработке программного средства для генерации синтетических данных для задач облачных вычислений. В работе проведён анализ современных методов генерации синтетических данных, включая статистические подходы, методы машинного обучения и генеративные модели глубокого обучения. На основе анализа выбран статистический метод, основанный на подборе и аппроксимации распределений, включая смеси распределений. В рамках работы реализовано программное средство, обеспечивающее автоматический подбор параметров распределений методом максимального правдоподобия, построение смесей распределений, генерацию синтетических данных с учётом выбросов и временных меток, а также оценку качества с помощью статистических метрик. Проведён экспериментальный анализ, подтвердивший высокое качество синтетических данных и их пригодность для задач тестирования и обучения моделей машинного обучения. Разработанное средство отличается гибкостью, прозрачностью и возможностью адаптации под различные предметные области. Практическая значимость работы заключается в возможности использования разработанного инструмента для генерации реалистичных синтетических данных в условиях ограниченного доступа к реальным данным, что актуально для тестирования облачных систем и обучения моделей. В процессе выполнения работы были использованы следующие информационные технологии и ресурсы: язык программирования Python 3.12 с библиотеками pandas, numpy, scipy, scikit-learn и matplotlib для обработки и анализа данных; среда разработки PyCharm; операционная система Windows 10.
The graduate qualification work is devoted to the development of a software tool for generating synthetic data for cloud computing tasks. The paper analyzes modern methods of synthetic data generation, including statistical approaches, machine learning methods and generative deep learning models. Based on the analysis, a statistical method based on the selection and approximation of distributions, including mixtures of distributions, is selected. Within the framework of the work, we have implemented a software tool that provides automatic selection of parameters of distributions by the maximum likelihood method, construction of mixtures of distributions, generation of synthetic data considering outliers and timestamps, as well as quality assessment using statistical metrics. Experimental analysis was carried out, which confirmed the high quality of synthetic data and their suitability for testing and training of machine learning models. The developed tool is characterized by flexibility, transparency and adaptability to different subject areas. The practical significance of the work lies in the possibility of using the developed tool to generate realistic synthetic data in conditions of limited access to real data, which is relevant for testing cloud systems and training models. The following information technologies and resources were used in the course of the work: Python 3.12 programming language with pandas, numpy, scipy, scikit-learn and matplotlib libraries for data processing and analysis; PyCharm development environment; Windows 10 operating system.
Место доступа | Группа пользователей | Действие |
---|---|---|
Локальная сеть ИБК СПбПУ | Все |
|
Интернет | Авторизованные пользователи СПбПУ |
|
Интернет | Анонимные пользователи |
|
Количество обращений: 0
За последние 30 дней: 0