Details

Title: Разработка алгоритмов интеллектуального планирования вычислительных ресурсов в суперкомпьютерных системах: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_03 «Искусственный интеллект и машинное обучение»
Creators: Скородумов Никита Николаевич
Scientific adviser: Лукашин Алексей Андреевич
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2022
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: высокопроизводительные вычисления; планирование суперкомпьютерных заданий; машинное обучение; оценка времени выполнения задания; high-performance computing; supercomputer task scheduling; machine learning; task execution time estimation
Document type: Master graduation qualification work
File type: PDF
Language: Russian
Level of education: Master
Speciality code (FGOS): 02.04.01
Speciality group (FGOS): 020000 - Компьютерные и информационные науки
DOI: 10.18720/SPBPU/3/2022/vr/vr22-3927
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally: New arrival
Record key: ru\spstu\vkr\18206

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Работа посвящена улучшению процесса планирования заданий на суперкомпьютере за счет более точного прогноза времени выполнения с помощью методов машинного обучения. В работе использовался набор данных о рабочей нагрузке, взятый с кластера суперкомпьютерного центра (СКЦ) «Политехнический» на базе СПбПУ, за 2021 год.Исходные данные имели крайне завышенные оценки времени выполнения заданий, что не позволяло планировщику выстраивать их реалистичный порядок работы. В процессе работы были опробованы 8 методов для прогнозирования времени выполнения задания: кластеризация, градиентный бустинг для регрессии и классификации, случайный лес для регрессии и классификации, метод опорных векторов, медианная регрессия, логистическая регрессия.Лучшие из полученных моделей оценки времени были использованы в совокупности с исходными данными для моделирования рабочей нагрузки в симуляторе SLURM с конфигурацией, близкой к используемой в суперкомпьютерном центре. На основе смоделированной работы планировщика были измерены среднее время ожидания заданий в очереди и утилизация ресурсов. В результате чего было зафиксировано снижения времени ожидания относительно разницы этого показателя по умолчанию и при идеальной оценке для моделей градиентного спуска и медианной регрессии на 28 и 19 процентов соответственно.

The work is devoted to improving the task scheduling process on a supercomputer due to a more accurate prediction of execution time using machine learning methods. In the work, we used a dataset taken from the cluster of the supercomputer center (SCC) "Polytechnic" based on SPbPU for 2021.The initial data had extremely high estimates of the execution time of tasks, which did not allow the scheduler to build their realistic order of work. In the course of the work, 8 methods were tested to predict the task completion time: clustering, gradient boosting for regression and classification, random forest for regression and classification, support vector machine, median regression, logistic regression.The best time estimation models obtained were used in conjunction with the initial data to simulate the workload in the SLURM simulator with a configuration close to that used in the supercomputing center. Based on the simulated work of the scheduler, the average waiting time for tasks in the queue and resource utilization were measured. As a result, waiting times were recorded to be 28 percent and 19 percent lower than the default for gradient descent and median regression, respectively.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
External organizations N2 All Read
External organizations N1 All
Internet Authorized users SPbPU Read Print Download
Internet Authorized users (not from SPbPU, N2) Read
Internet Authorized users (not from SPbPU, N1)
-> Internet Anonymous

Usage statistics

stat Access count: 2
Last 30 days: 0
Detailed usage statistics