Algorithm for monitoring and improving the stability of the IT infrastructure based on availability and reliability metrics

Varlamov, D. A.; Nikiforov, I. V.; Ustinov, S. M.

Детальная информация

Название	Algorithm for monitoring and improving the stability of the IT infrastructure based on availability and reliability metrics // Информатика, телекоммуникации и управление. – 2024. – Т. 17, № 2. — С. 24-37
Авторы	Varlamov D. A. ; Nikiforov I. V. ; Ustinov S. M.
Выходные сведения	2024
Коллекция	Общая коллекция
Тематика	Вычислительная техника ; Программирование ЭВМ. Компьютерные программы. Программотехника ; information technology infrastructures ; stability of information technology infrastructures ; monitoring of information technology infrastructures ; availability of services (computing) ; reliability of services ; previous service outages ; statistics of previous outages ; информационно-технологические инфраструктуры ; стабильность информационно-технологических инфраструктур ; мониторинг информационно-технологических инфраструктур ; доступность сервисов (вычислительная техника) ; надежность сервисов ; предыдущие отключения сервисов ; статистика предыдущих отключений
УДК	004.41/42
ББК	32.973-018
Тип документа	Статья, доклад
Тип файла	PDF
Язык	Английский
DOI	10.18721/JCSTCS.17203
Права доступа	Свободный доступ из сети Интернет (чтение, печать, копирование)
Ключ записи	RU\SPSTU\edoc\74872
Дата создания записи	16.12.2024

Разрешенные действия

Прочитать Загрузить (0,6 Мб)

Группа	Анонимные пользователи
Сеть	Интернет

Most companies have their own IT infrastructure that consists of complex systems and services. The stability of systems and services is important for companies, as problems with them can lead to loss of resources and human time. Thus, it is important to analyze previous IT service outages, which aims to identify and adjust the most critical and vulnerable elements of the infrastructure that are prone to breakage or failure. Research objective is to develop a new algorithm for improving the stability of IT infrastructure of a company by analyzing and taking into account the statistics of previous services outages. As a result, a new algorithm is proposed to identify and fix problems in IT services before they lead to serious consequences and reduce the time to find the source of problem. The algorithm is based on two new metrics: availability and reliability, which distinctive feature is the consideration of statistics of previous failures and outages in the system. The architecture of a high-performance software tool that allows real-time monitoring and evaluation of IT services stability metrics is presented. The effectiveness of the proposed algorithm is demonstrated by implementing it in a software tool and observing the growth of stability indicators - availability and reliability - after the detection and elimination of a weak link in IT services. The use of the developed algorithm allowed to reduce the time during which the material and human resources of the company were idle by 25%. The practical significance of the presented algorithm was tested in one of the large industrial information technology companies with more than 10000 employees. Based on the information obtained with created software, it was possible to obtain recommendations for improving the stability of company’s IT services.

Большинство компаний имеют собственную информационно-технологическую инфраструктуру, состоящую из сложных систем и сервисов. Стабильность работы сервисов важна для компаний, так как проблемы с ними приводят к потерям ресурсов и человеческого времени. Поэтому важным является анализ предыдущих отключений сервисов, который направлен на выявление и налаживание уязвимых элементов инфраструктуры, подверженных поломке или отказу. Цель исследования: разработать алгоритм для повышения стабильности информационно-технологической инфраструктуры предприятия за счет анализа и учета статистики предыдущих отключений. Результаты: предложен новый алгоритм, позволяющий выявлять и устранять проблемы в информационно-технологических сервисах предприятия до того, как они приведут к серьезным последствиям, и сокращать время на поиск источника проблемы. Алгоритм основан на двух новых метриках: доступность и надежность, отличительной особенностью которых является учет статистики предыдущих отключений. Представлена архитектура высокопроизводительного программного средства, позволяющего в режиме реального времени осуществлять мониторинг и оценку показателей стабильности сервисов. Демонстрируется эффективность предложенного алгоритма путем его реализации в программном средстве и наблюдения роста показателей стабильности - доступности и надежности - после обнаружения и устранения слабого звена в информационно-технологических сервисах. Использование разработанного алгоритма позволило на 25% сократить время, в течение которого материальные и человеческие ресурсы компании простаивали. Практическая значимость: представленный алгоритм применен на практике в одной из крупных промышленных информационно-технологических компаний с более чем 10000 сотрудников. На основе информации, полученной при помощи созданного программного средства, удалось получить рекомендации по повышению стабильности информационных сервисов компании.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Все

Информатика, телекоммуникации и управление = Computing, Telecommunications and Control. — Санкт-Петербург: СПбПУ, 2020-. — Электрон. журнал. — Периодичность: 4 раза в год. — Свободный доступ из сети Интернет (чтение, печать, копирование). — Текст: электронный

Информатика, телекоммуникации и управление = Computing, Telecommunications and Control. — Санкт-Петербург: СПбПУ, 2020-. Т. 17, № 2, 2024. — 1 файл (4,12 Мб). — Свободный доступ из сети Интернет (чтение, печать, копирование). — <URL:http://elib.spbstu.ru/dl/2/j24-436.pdf>.

Количество обращений: 75
За последние 30 дней: 10

Подробная статистика