Детальная информация

Название Повышение реальной производительности высокопроизводительных кластеров с использованием методов машинного обучения: выпускная квалификационная работа бакалавра: направление 02.03.01 «Математика и компьютерные науки» ; образовательная программа 02.03.01_01 «Системы искусственного интеллекта и суперкомпьютерные технологии»
Авторы Бойцова Наталья Андреевна
Научный руководитель Заборовский Владимир Сергеевич
Организация Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения Санкт-Петербург, 2024
Коллекция Выпускные квалификационные работы; Общая коллекция
Тематика модель выживаемости; машинное обучение; суперкомпьютерный кластер; цензурированные данные; survival model; machine learning; supercomputer cluster; censored data
Тип документа Выпускная квалификационная работа бакалавра
Тип файла PDF
Язык Русский
Уровень высшего образования Бакалавриат
Код специальности ФГОС 02.03.01
Группа специальностей ФГОС 020000 - Компьютерные и информационные науки
DOI 10.18720/SPBPU/3/2024/vr/vr24-4613
Права доступа Доступ по паролю из сети Интернет (чтение)
Дополнительно Новинка
Ключ записи ru\spstu\vkr\32274
Дата создания записи 28.08.2024

Разрешенные действия

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа Анонимные пользователи
Сеть Интернет

Тема выпускной квалификационной работы: «Повышение реальной производительности высокопроизводительных кластеров с использованием методов машинного обучения». Работа посвящена решению задаче повышения реальной производительности гибридных суперкомпьютерных платформ (ГСКП), состоящих из различных типов вычислительных узлов (CPU, GPU, FPGA), работающих под управлением диспетчера вычислительных ресурсов как центры коллективного пользования (ЦКП). Разрабатываемый подход отличается от известных решений, наличием системы машинного обучения диспетчера SLURM, планирующего текущую загрузку вычислительных ресурсов с учетом не только запросов пользователей, но и информации об результативности работы ГСКП в предыдущие этапы функционирования. Объектом исследования является суперкомпьютерный центр «Политехнический», работающего в режиме коллективного пользования. Предметом исследования является алгоритм оценки необходимого времени выполнения прикладной задач пользователей, с учетом их успешного завершения. Целью исследования является оптимизация параметров задач так, чтобы обеспечить успешное выполнение наибольшего числа прикладных задач за интервал времени, выделенный для конкретной задачи. Вводится абстракция «время выживания прикладных заданий», которая позволяет оценивать эффективность работы диспетчера как число успешно завершенных прикладных заданий к общему числу задач пользователей, выполняемых кластером за выбранный интервал времени.

The subject of the graduate qualification work is «Increasing real productivity in high-performance clusters using machine learning». The work is dedicated to solving the problem of increasing real productivity of hybrid supercomputing platforms (HSPs), which consist of various types of computing nodes (CPU, GPU, FPGA) managed by a resource manager resource. The developed approach differs from known solutions by incorporating a machine learning system into the SLURM resource manager. This system schedules current resource loads taking into account not only user requests but also information about the performance of the HSP in previous operational stages. The research subject is an algorithm for estimating the required execution time of user task, considering their successful completion. The aim of the study is to optimize task parameters in a way that ensures successful execution of the highest number of task within a specific time interval allocated for each task. The efficiency of the resource manager is determined as the ratio of successfully completed user task to the total number of tasks executed by the cluster within a selected time interval. An abstraction of "survival time of user task"is introduced. To assess the survival function, it is proposed to utilize accumulated statistics from the operation of the HSP and machine learning methods to develop a prediction function for the execution time of new tasks.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать
Интернет Авторизованные пользователи СПбПУ
Прочитать
Интернет Анонимные пользователи

Количество обращений: 1 
За последние 30 дней: 1

Подробная статистика