Стек данных в кризис: что резать, что держать
Когда команды сокращаются и проекты замораживаются, данные всё равно нужны - как расставить приоритеты в инфраструктуре данных в нестабильный период.
Весной 2020 года многие компании одновременно прошли через одно и то же. Проекты заморожены, команды переведены на удалёнку или сокращены, бюджеты пересмотрены вниз. И при этом потребность в информации - в реальных цифрах, в понимании что происходит - резко выросла.
Это создаёт странное противоречие. Ресурсов меньше, а решений нужно больше и быстрее. В такой ситуации управление данными не становится менее важным - оно становится важнее, но меняется то, как именно надо с ним работать.
Я видел несколько компаний, которые в этот период приняли решения, которые потом обошлись им дороже, чем сама экономия. Вот что я из этого вынес.
Что происходит с данными во время кризиса
Первая реакция обычно - срочные выгрузки. Руководство хочет видеть картину каждый день, аналитики делают новые таблицы, BI-дашборды переписываются под новые метрики. Одновременно часть людей, которые "знали как считать", уходит или уходит в другие задачи.
В результате через три месяца у компании накапливается слой ситуативной аналитики - файлы, которые считались "временно", запросы в базу, которые никто не документировал, метрики, которые каждый понимает по-своему.
Это не катастрофа. Но это долг, который придётся платить позже.
Что нельзя останавливать
Есть несколько вещей, которые в период нестабильности трогать нельзя, даже если очень хочется сэкономить.
Сбор исторических данных. Если вы перестанете собирать данные сейчас, у вас не будет базы для анализа, когда ситуация стабилизируется. Пробел в данных за несколько месяцев - это пробел навсегда. Хранение дешевле, чем восстановление.
Критические интеграции между системами. Если данные о продажах не попадают в финансовую систему автоматически - это не просто неудобство. Это ручная работа, которая растёт пропорционально объёму операций.
Права доступа и аудит. В кризис люди меняют роли, подрядчики получают временный доступ, всё делается быстро. Через полгода никто не помнит, кому и зачем выдавали доступ. Это потом становится проблемой безопасности.
Что можно отложить
Если надо что-то притормозить - притормаживайте развитие, не обслуживание.
Новые дашборды, новые источники данных, красивые визуализации, эксперименты с ML - всё это можно подождать. Поддержка того, что уже работает и от чего зависят операционные решения - нет.
Хорошее правило: спросите себя, что произойдёт, если это перестанет работать завтра. Если ответ "ничего страшного" - можно отложить. Если ответ "придётся считать руками" - трогать не стоит.
Как документировать то, что делается на ходу
В кризис нет времени писать документацию. Это нормально. Но есть минимум, который стоит соблюдать.
Каждый новый запрос или выгрузка, которую используют регулярно - хотя бы одно предложение: откуда данные, кто попросил, что считается. Это занимает две минуты и через три месяца спасает часы работы нового человека, которому это передадут.
Три вопроса на сейчас
Если вы управляете командой или проектом с данными в нестабильный период:
- Какие данные у нас собираются непрерывно, и кто следит за тем, что они не пропадают?
- Какие решения реально принимаются на основе данных - и можем ли мы их принять без потерь завтра?
- Что из того, что сделано "временно" за последние три месяца, уже стало постоянным?
Последний вопрос обычно самый неудобный.