Details
Title | Повышение реальной производительности высокопроизводительных кластеров с использованием методов машинного обучения: выпускная квалификационная работа бакалавра: направление 02.03.01 «Математика и компьютерные науки» ; образовательная программа 02.03.01_01 «Системы искусственного интеллекта и суперкомпьютерные технологии» |
---|---|
Creators | Бойцова Наталья Андреевна |
Scientific adviser | Заборовский Владимир Сергеевич |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Imprint | Санкт-Петербург, 2024 |
Collection | Выпускные квалификационные работы; Общая коллекция |
Subjects | модель выживаемости; машинное обучение; суперкомпьютерный кластер; цензурированные данные; survival model; machine learning; supercomputer cluster; censored data |
Document type | Bachelor graduation qualification work |
File type | |
Language | Russian |
Level of education | Bachelor |
Speciality code (FGOS) | 02.03.01 |
Speciality group (FGOS) | 020000 - Компьютерные и информационные науки |
DOI | 10.18720/SPBPU/3/2024/vr/vr24-4613 |
Rights | Доступ по паролю из сети Интернет (чтение) |
Additionally | New arrival |
Record key | ru\spstu\vkr\32274 |
Record create date | 8/28/2024 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Тема выпускной квалификационной работы: «Повышение реальной производительности высокопроизводительных кластеров с использованием методов машинного обучения». Работа посвящена решению задаче повышения реальной производительности гибридных суперкомпьютерных платформ (ГСКП), состоящих из различных типов вычислительных узлов (CPU, GPU, FPGA), работающих под управлением диспетчера вычислительных ресурсов как центры коллективного пользования (ЦКП). Разрабатываемый подход отличается от известных решений, наличием системы машинного обучения диспетчера SLURM, планирующего текущую загрузку вычислительных ресурсов с учетом не только запросов пользователей, но и информации об результативности работы ГСКП в предыдущие этапы функционирования. Объектом исследования является суперкомпьютерный центр «Политехнический», работающего в режиме коллективного пользования. Предметом исследования является алгоритм оценки необходимого времени выполнения прикладной задач пользователей, с учетом их успешного завершения. Целью исследования является оптимизация параметров задач так, чтобы обеспечить успешное выполнение наибольшего числа прикладных задач за интервал времени, выделенный для конкретной задачи. Вводится абстракция «время выживания прикладных заданий», которая позволяет оценивать эффективность работы диспетчера как число успешно завершенных прикладных заданий к общему числу задач пользователей, выполняемых кластером за выбранный интервал времени.
The subject of the graduate qualification work is «Increasing real productivity in high-performance clusters using machine learning». The work is dedicated to solving the problem of increasing real productivity of hybrid supercomputing platforms (HSPs), which consist of various types of computing nodes (CPU, GPU, FPGA) managed by a resource manager resource. The developed approach differs from known solutions by incorporating a machine learning system into the SLURM resource manager. This system schedules current resource loads taking into account not only user requests but also information about the performance of the HSP in previous operational stages. The research subject is an algorithm for estimating the required execution time of user task, considering their successful completion. The aim of the study is to optimize task parameters in a way that ensures successful execution of the highest number of task within a specific time interval allocated for each task. The efficiency of the resource manager is determined as the ratio of successfully completed user task to the total number of tasks executed by the cluster within a selected time interval. An abstraction of "survival time of user task"is introduced. To assess the survival function, it is proposed to utilize accumulated statistics from the operation of the HSP and machine learning methods to develop a prediction function for the execution time of new tasks.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
Access count: 1
Last 30 days: 0