ИТ 21 февраля 2022 2 мин чтения

Устойчивость ИТ-систем в условиях нестабильности

Как руководителю думать об устойчивости ИТ-инфраструктуры, когда внешние условия меняются быстро и непредсказуемо.

Есть разница между надёжностью и устойчивостью. Надёжная система хорошо работает в предсказуемых условиях. Устойчивая система продолжает работать, когда условия меняются неожиданно.

В начале 2022 года этот вопрос встал перед многими компаниями практически. Нестабильность внешней среды - экономической, регуляторной, логистической - заставила пересмотреть ряд предположений, которые закладывались в ИТ-архитектуру в более спокойное время.

Я хочу разобрать, как руководителю думать об устойчивости систем, не уходя в технические детали.

Что делает систему хрупкой

Хрупкость редко очевидна в спокойное время. Она проявляется, когда что-то идёт не так, как планировалось.

Несколько типичных источников хрупкости в ИТ-инфраструктуре:

зависимость от одного поставщика без альтернативы: один облачный провайдер, один вендор ПО, один канал связи;
критические данные и процессы на системах, которые никто не обслуживает и не понимает;
отсутствие задокументированных процедур восстановления - план резервного копирования есть, план восстановления не проверялся никогда;
ключевые компетенции сосредоточены у одного человека или одного подрядчика;
интеграции между системами держатся на "ручных" процессах, которые рассыпаются при форс-мажоре.

Каждый из этих пунктов - потенциальная точка отказа, которая в нормальных условиях незаметна.

Уровни устойчивости

Устойчивость ИТ-систем можно думать о ней на трёх уровнях.

Первый - операционный. Система работает при сбое отдельного компонента. Это достигается резервированием, репликацией, балансировкой нагрузки. Большинство зрелых компаний этим уровнем занимаются.

Второй - восстановительный. Система возвращается к работе после серьёзного сбоя за приемлемое время. Это требует не только технических средств, но и отработанных процедур: кто принимает решение, кто что делает, где хранятся ключи и пароли, кто уведомляет клиентов. Многие компании недооценивают этот уровень.

Третий - адаптивный. Система позволяет перестроить работу при изменении внешних условий: сменить поставщика, перенести нагрузку в другую инфраструктуру, ограничить или расширить функциональность. Это самый редкий уровень, и именно он оказывается критичным в нестабильные периоды.

Практические вопросы для аудита

Несколько вопросов, которые стоит задать своей команде прямо сейчас:

Какие наши системы являются критическими - без них бизнес остановится? Как давно проверялась их устойчивость?
Есть ли у нас альтернативные поставщики для ключевых компонентов инфраструктуры?
Проверялся ли план восстановления после аварии реальным тестом - не только на бумаге?
Если ключевой сотрудник или подрядчик станет недоступным сегодня - где хранятся нужные доступы и документация?
Что происходит с нашими данными, если внешний сервис закроется или станет недоступным?

Это не параноидальные вопросы. Это стандартный операционный аудит, который большинство компаний откладывают до первого серьёзного инцидента.

Где начать

Я не советую пытаться решить всё сразу. Хороший первый шаг - составить список критических систем и оценить, какой из перечисленных рисков наиболее вероятен в вашем конкретном случае.

Устойчивость не достигается одним проектом. Это постепенное снижение концентрации рисков: добавление альтернатив, документирование процедур, периодическая проверка планов восстановления.

В нестабильные периоды это работа, которая окупается.

К списку статей

Контакт

Если эта статья отозвалась - напишите. Я отвечаю лично.

Telegram TenChat MAX