Устойчивость ИТ-систем в условиях нестабильности
Как руководителю думать об устойчивости ИТ-инфраструктуры, когда внешние условия меняются быстро и непредсказуемо.
Есть разница между надёжностью и устойчивостью. Надёжная система хорошо работает в предсказуемых условиях. Устойчивая система продолжает работать, когда условия меняются неожиданно.
В начале 2022 года этот вопрос встал перед многими компаниями практически. Нестабильность внешней среды - экономической, регуляторной, логистической - заставила пересмотреть ряд предположений, которые закладывались в ИТ-архитектуру в более спокойное время.
Я хочу разобрать, как руководителю думать об устойчивости систем, не уходя в технические детали.
Что делает систему хрупкой
Хрупкость редко очевидна в спокойное время. Она проявляется, когда что-то идёт не так, как планировалось.
Несколько типичных источников хрупкости в ИТ-инфраструктуре:
- зависимость от одного поставщика без альтернативы: один облачный провайдер, один вендор ПО, один канал связи;
- критические данные и процессы на системах, которые никто не обслуживает и не понимает;
- отсутствие задокументированных процедур восстановления - план резервного копирования есть, план восстановления не проверялся никогда;
- ключевые компетенции сосредоточены у одного человека или одного подрядчика;
- интеграции между системами держатся на "ручных" процессах, которые рассыпаются при форс-мажоре.
Каждый из этих пунктов - потенциальная точка отказа, которая в нормальных условиях незаметна.
Уровни устойчивости
Устойчивость ИТ-систем можно думать о ней на трёх уровнях.
Первый - операционный. Система работает при сбое отдельного компонента. Это достигается резервированием, репликацией, балансировкой нагрузки. Большинство зрелых компаний этим уровнем занимаются.
Второй - восстановительный. Система возвращается к работе после серьёзного сбоя за приемлемое время. Это требует не только технических средств, но и отработанных процедур: кто принимает решение, кто что делает, где хранятся ключи и пароли, кто уведомляет клиентов. Многие компании недооценивают этот уровень.
Третий - адаптивный. Система позволяет перестроить работу при изменении внешних условий: сменить поставщика, перенести нагрузку в другую инфраструктуру, ограничить или расширить функциональность. Это самый редкий уровень, и именно он оказывается критичным в нестабильные периоды.
Практические вопросы для аудита
Несколько вопросов, которые стоит задать своей команде прямо сейчас:
- Какие наши системы являются критическими - без них бизнес остановится? Как давно проверялась их устойчивость?
- Есть ли у нас альтернативные поставщики для ключевых компонентов инфраструктуры?
- Проверялся ли план восстановления после аварии реальным тестом - не только на бумаге?
- Если ключевой сотрудник или подрядчик станет недоступным сегодня - где хранятся нужные доступы и документация?
- Что происходит с нашими данными, если внешний сервис закроется или станет недоступным?
Это не параноидальные вопросы. Это стандартный операционный аудит, который большинство компаний откладывают до первого серьёзного инцидента.
Где начать
Я не советую пытаться решить всё сразу. Хороший первый шаг - составить список критических систем и оценить, какой из перечисленных рисков наиболее вероятен в вашем конкретном случае.
Устойчивость не достигается одним проектом. Это постепенное снижение концентрации рисков: добавление альтернатив, документирование процедур, периодическая проверка планов восстановления.
В нестабильные периоды это работа, которая окупается.