m@ksim.pro
К списку статей
ИБ 2 мин чтения

Урок аутажа CrowdStrike: когда защита становится точкой отказа

Инцидент с обновлением CrowdStrike в июле 2024 года остановил работу тысяч компаний по всему миру. Что это говорит об архитектуре отказоустойчивости.

19 июля 2024 года обновление конфигурационного файла в агенте безопасности CrowdStrike Falcon привело к массовому выходу из строя Windows-систем по всему миру. Самолёты не взлетали, больницы переходили на бумажные процессы, банки останавливали транзакции. По масштабу операционных потерь это стал один из крупнейших ИТ-инцидентов в истории.

Прошло больше года. Я думаю, что большинство компаний сделали из этого технические выводы - установили более строгие процедуры тестирования обновлений. Но есть более глубокий архитектурный урок, который легко пропустить.

Что произошло на уровне механики

Агент безопасности установлен на каждой рабочей станции и сервере с широкими привилегиями - иначе он не может делать свою работу. Обновление этого агента пришло автоматически, как тысячи предыдущих. Ошибка в файле конфигурации привела к панике ядра. Синий экран. Машина не загружается.

Исправление существовало, но требовало ручного вмешательства на каждой машине. В облаке это можно автоматизировать. На физических машинах в распределённых офисах - нет.

Парадокс защитного инструмента

Инструмент безопасности по определению должен работать в критически важной части системы. Чем глубже он интегрирован - тем лучше защита. Чем глубже он интегрирован - тем выше риск от его сбоя.

Это не специфика CrowdStrike. Это свойство любого агента, который работает на уровне ядра ОС. Антивирусы, EDR-системы, агенты мониторинга с высокими привилегиями - все они несут этот же риск.

Раньше этот риск был теоретическим. После июля 2024 года он стал задокументированным случаем.

Что это значит для операционной архитектуры

Первое - сегментация обновлений. Автоматическое обновление, которое одновременно применяется на всём парке машин, - это риск масштабирования отказа. Правило "сначала часть, потом остальные" должно распространяться не только на прикладное ПО, но и на агентов безопасности.

Второе - сценарий восстановления без сети. Если машина не загружается, удалённое управление недоступно. Есть ли у вас инструкция по восстановлению, которую не-ИТ-сотрудник может выполнить в офисе без помощи?

Третье - карта зависимостей от агентов. На скольких системах установлен каждый агент? Какие из них критичны для непрерывности операций? Что происходит, если агент упадёт одновременно на всех?

Четвёртое - разнородность как буфер. Компании, которые использовали разные инструменты на разных сегментах инфраструктуры, пострадали меньше. Моноокружение - это концентрация риска.

Вопросы для проверки готовности

Инцидент такого масштаба - хороший повод задать себе несколько вопросов:

  1. Какие агенты установлены на критически важных машинах, и как управляется их обновление?
  2. Есть ли у вас сценарий восстановления машин, которые не загружаются и к которым нет физического доступа сразу?
  3. Насколько быстро вы сможете изолировать проблему, если отказ придёт через инструмент безопасности?
  4. Кто принимает решение об откате обновления агента в нерабочее время?
  5. Есть ли у вас список систем, без которых бизнес не работает ни часа?

Защита от внешних угроз и устойчивость к внутренним сбоям - это не одно и то же. Хорошая безопасность требует обоих.

К списку статей
Контакт

Если эта статья отозвалась - напишите. Я отвечаю лично.

Telegram