ИТ 22 сентября 2016 2 мин чтения

Частота релизов как показатель безопасности, а не скорости

DevOps меняет не только то, как быстро выходит код, но и то, насколько каждое изменение рискованно.

Когда руководитель слышит "мы хотим деплоить чаще", это звучит как запрос на скорость. Команда хочет выпускать обновления каждую неделю вместо раза в квартал. Интуитивно это кажется рискованным: больше изменений - больше шансов что-то сломать.

Практика показывает обратное. Компании, которые деплоят часто, как правило, имеют меньше инцидентов, а не больше. Это кажется парадоксом, пока не понимаешь механику.

Почему редкие большие релизы опаснее частых маленьких

Редкий крупный релиз накапливает сотни изменений за квартал. Когда что-то ломается - а что-то сломается - найти причину сложно: изменений много, они взаимодействуют, вернуться к стабильному состоянию трудно. Откат стоит дорого, потому что он откатывает не одно изменение, а три месяца работы.

Частый маленький релиз содержит несколько изменений. Если что-то пошло не так - причина, скорее всего, в последних изменениях. Откат быстрый. Окно воздействия на пользователей маленькое.

Это не просто теория. Отчёты State of DevOps, которые Puppet Labs выпускает с 2013 года, стабильно показывают: высокоэффективные организации деплоят чаще и одновременно имеют более короткое среднее время восстановления после инцидентов.

Что нужно, чтобы частые деплои были безопасными

Частые деплои не становятся безопасными сами по себе. Для этого нужна инфраструктура, которая делает каждый деплой предсказуемым и обратимым.

Автоматические тесты. Если изменение проходит автоматическую проверку перед деплоем, уровень уверенности значительно выше, чем при ручном контроле раз в квартал.

Автоматизированный деплой. Ручной деплой с инструкцией на 40 шагов - источник ошибок. Автоматизированный деплой с фиксированным скриптом воспроизводим.

Возможность быстрого отката. Если что-то пошло не так, должна быть техническая возможность вернуться к предыдущей версии за минуты, а не часы.

Мониторинг после деплоя. Нужно знать, что произошло после изменения - пока аудитория маленькая, а проблема ещё не стала массовой.

Что это значит для руководителя

Я не предлагаю немедленно переходить на ежедневные деплои. Это вопрос зрелости инженерного процесса, и переход требует времени и инвестиций.

Но есть несколько вопросов, которые стоит задать команде, чтобы понять текущее состояние:

Сколько времени между тем, как разработчик завершил задачу, и тем, как она оказалась у пользователя?
Насколько болезненен каждый релиз - это плановое событие или стресс для команды?
Сколько занимает восстановление после инцидента, связанного с деплоем?
Когда последний раз команда откатывала изменение - и насколько легко это было сделать?

Ответы на эти вопросы рисуют картину реального состояния. DevOps - это не набор инструментов. Это набор практик, которые делают изменения предсказуемыми и обратимыми. Безопасность через контроль, а не через редкость.

К списку статей

Контакт

Если эта статья отозвалась - напишите. Я отвечаю лично.

Telegram TenChat MAX