Details

Title Повышение реальной производительности высокопроизводительных кластеров с использованием методов машинного обучения: выпускная квалификационная работа бакалавра: направление 02.03.01 «Математика и компьютерные науки» ; образовательная программа 02.03.01_01 «Системы искусственного интеллекта и суперкомпьютерные технологии»
Creators Бойцова Наталья Андреевна
Scientific adviser Заборовский Владимир Сергеевич
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint Санкт-Петербург, 2024
Collection Выпускные квалификационные работы; Общая коллекция
Subjects модель выживаемости; машинное обучение; суперкомпьютерный кластер; цензурированные данные; survival model; machine learning; supercomputer cluster; censored data
Document type Bachelor graduation qualification work
File type PDF
Language Russian
Level of education Bachelor
Speciality code (FGOS) 02.03.01
Speciality group (FGOS) 020000 - Компьютерные и информационные науки
DOI 10.18720/SPBPU/3/2024/vr/vr24-4613
Rights Доступ по паролю из сети Интернет (чтение)
Additionally New arrival
Record key ru\spstu\vkr\32274
Record create date 8/28/2024

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Group Anonymous
Network Internet

Тема выпускной квалификационной работы: «Повышение реальной производительности высокопроизводительных кластеров с использованием методов машинного обучения». Работа посвящена решению задаче повышения реальной производительности гибридных суперкомпьютерных платформ (ГСКП), состоящих из различных типов вычислительных узлов (CPU, GPU, FPGA), работающих под управлением диспетчера вычислительных ресурсов как центры коллективного пользования (ЦКП). Разрабатываемый подход отличается от известных решений, наличием системы машинного обучения диспетчера SLURM, планирующего текущую загрузку вычислительных ресурсов с учетом не только запросов пользователей, но и информации об результативности работы ГСКП в предыдущие этапы функционирования. Объектом исследования является суперкомпьютерный центр «Политехнический», работающего в режиме коллективного пользования. Предметом исследования является алгоритм оценки необходимого времени выполнения прикладной задач пользователей, с учетом их успешного завершения. Целью исследования является оптимизация параметров задач так, чтобы обеспечить успешное выполнение наибольшего числа прикладных задач за интервал времени, выделенный для конкретной задачи. Вводится абстракция «время выживания прикладных заданий», которая позволяет оценивать эффективность работы диспетчера как число успешно завершенных прикладных заданий к общему числу задач пользователей, выполняемых кластером за выбранный интервал времени.

The subject of the graduate qualification work is «Increasing real productivity in high-performance clusters using machine learning». The work is dedicated to solving the problem of increasing real productivity of hybrid supercomputing platforms (HSPs), which consist of various types of computing nodes (CPU, GPU, FPGA) managed by a resource manager resource. The developed approach differs from known solutions by incorporating a machine learning system into the SLURM resource manager. This system schedules current resource loads taking into account not only user requests but also information about the performance of the HSP in previous operational stages. The research subject is an algorithm for estimating the required execution time of user task, considering their successful completion. The aim of the study is to optimize task parameters in a way that ensures successful execution of the highest number of task within a specific time interval allocated for each task. The efficiency of the resource manager is determined as the ratio of successfully completed user task to the total number of tasks executed by the cluster within a selected time interval. An abstraction of "survival time of user task"is introduced. To assess the survival function, it is proposed to utilize accumulated statistics from the operation of the HSP and machine learning methods to develop a prediction function for the execution time of new tasks.

Network User group Action
ILC SPbPU Local Network All
Read
Internet Authorized users SPbPU
Read
Internet Anonymous

Access count: 1 
Last 30 days: 0

Detailed usage statistics