Разработка алгоритмов интеллектуального планирования вычислительных ресурсов в суперкомпьютерных системах: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_03 «Искусственный интеллект и машинное обучение» = Development of algorithms for intelligent planning of computing resources in supercomputer systems

Скородумов, Никита Николаевич

Details

Title	Разработка алгоритмов интеллектуального планирования вычислительных ресурсов в суперкомпьютерных системах: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_03 «Искусственный интеллект и машинное обучение» = Development of algorithms for intelligent planning of computing resources in supercomputer systems
Creators	Скородумов Никита Николаевич
Scientific adviser	Лукашин Алексей Андреевич
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint	Санкт-Петербург, 2022
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	Искусственный интеллект ; высокопроизводительные вычисления ; планирование суперкомпьютерных заданий ; оценка времени выполнения задания ; high-performance computing ; supercomputer task scheduling ; task execution time estimation
UDC	004.8
Document type	Master graduation qualification work
Language	Russian
Level of education	Master
Speciality code (FGOS)	02.04.01
Speciality group (FGOS)	020000 - Компьютерные и информационные науки
DOI	10.18720/SPBPU/3/2022/vr/vr22-3927
Rights	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key	ru\spstu\vkr\18206
Record create date	12/9/2022

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Работа посвящена улучшению процесса планирования заданий на суперкомпьютере за счет более точного прогноза времени выполнения с помощью методов машинного обучения. В работе использовался набор данных о рабочей нагрузке, взятый с кластера суперкомпьютерного центра (СКЦ) «Политехнический» на базе СПбПУ, за 2021 год. Исходные данные имели крайне завышенные оценки времени выполнения заданий, что не позволяло планировщику выстраивать их реалистичный порядок работы. В процессе работы были опробованы 8 методов для прогнозирования времени выполнения задания: кластеризация, градиентный бустинг для регрессии и классификации, случайный лес для регрессии и классификации, метод опорных векторов, медианная регрессия, логистическая регрессия. Лучшие из полученных моделей оценки времени были использованы в совокупности с исходными данными для моделирования рабочей нагрузки в симуляторе SLURM с конфигурацией, близкой к используемой в суперкомпьютерном центре. На основе смоделированной работы планировщика были измерены среднее время ожидания заданий в очереди и утилизация ресурсов. В результате чего было зафиксировано снижения времени ожидания относительно разницы этого показателя по умолчанию и при идеальной оценке для моделей градиентного спуска и медианной регрессии на 28 и 19 процентов соответственно.

The work is devoted to improving the task scheduling process on a supercomputer due to a more accurate prediction of execution time using machine learning methods. In the work, we used a dataset taken from the cluster of the supercomputer center (SCC) "Polytechnic" based on SPbPU for 2021. The initial data had extremely high estimates of the execution time of tasks, which did not allow the scheduler to build their realistic order of work. In the course of the work, 8 methods were tested to predict the task completion time: clustering, gradient boosting for regression and classification, random forest for regression and classification, support vector machine, median regression, logistic regression. The best time estimation models obtained were used in conjunction with the initial data to simulate the workload in the SLURM simulator with a configuration close to that used in the supercomputing center. Based on the simulated work of the scheduler, the average waiting time for tasks in the queue and resource utilization were measured. As a result, waiting times were recorded to be 28 percent and 19 percent lower than the default for gradient descent and median regression, respectively.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Access count: 16
Last 30 days: 0

Detailed usage statistics