Каталог данных: дисциплина знать, что у вас есть
Почему управление метаданными - это не технический проект, а операционная необходимость для компаний, которые работают с данными серьёзно.
Есть вопрос, который я задаю почти в каждой компании, где начинаю работу: если аналитику нужны данные о продажах за последние два года, как он их найдёт? Не "есть ли они у нас" - я уверен, что есть. А именно: как найдёт, какие именно взять, можно ли им доверять и у кого спросить, если что-то непонятно?
В большинстве случаев ответ - через коллег. Написать в мессенджер нужному человеку, который знает, где что лежит. Это работает. До тех пор, пока этот человек не ушёл в отпуск, не уволился или не оказался занят.
Что такое каталог данных и зачем он нужен
Каталог данных - это не база знаний и не документация. Это рабочий инструмент: централизованный реестр того, какие данные есть в компании, где они физически хранятся, что означают, кто за них отвечает и насколько им можно доверять.
Разница между "документацией о данных" и "рабочим каталогом" принципиальная. Документация пишется один раз и устаревает. Каталог поддерживается в актуальном состоянии как часть операционного процесса - потому что без этого он теряет ценность быстрее, чем кажется.
Хороший каталог отвечает на несколько ключевых вопросов для каждого набора данных:
- Откуда эти данные пришли и когда обновлялись в последний раз?
- Кто владелец - конкретный человек, не отдел?
- Какие поля содержит набор и что они означают?
- Какие известны ограничения или особенности?
- Как эти данные связаны с другими наборами?
Когда отсутствие каталога начинает стоить денег
Первые симптомы незаметны. Аналитик тратит час на поиск нужных данных вместо десяти минут. Это кажется нормальным: "он разберётся".
Потом компания запускает аналитический проект, и половина времени уходит не на анализ, а на выяснение того, каким данным можно доверять. Это уже видимые потери.
Дальше - хуже. Два отчёта показывают разные цифры по одному и тому же показателю, и никто не может быстро объяснить, почему. Это уже управленческий кризис. Это уже управленческий кризис.
Каталог данных не решает все эти проблемы автоматически. Но он создаёт условие, при котором они не накапливаются до кризиса.
С чего начать, если каталога нет
Ошибка, которую я вижу чаще всего: компания покупает инструмент для управления метаданными и ожидает, что он заполнит себя сам. Инструмент важен, но вторичен.
Первый шаг - инвентаризация. Какие источники данных существуют в компании? Не перечисление баз данных в ИТ-отделе, а перечисление данных с точки зрения бизнеса: данные о клиентах, данные о продажах, данные о запасах. Для каждого источника - кто им пользуется и кто отвечает за его корректность.
Второй шаг - выбор приоритетных наборов. Не нужно каталогизировать всё сразу. Начать с данных, которые используются чаще всего и от которых зависят ключевые решения.
Третий шаг - закрепить ответственность. Каждый набор данных в каталоге должен иметь владельца. Без этого каталог превратится в документацию - актуальную сегодня и устаревшую через полгода.
Простая проверка
Попросите случайного аналитика в компании объяснить, откуда берутся данные в его любимом отчёте - до источника. Если цепочка понятна и документирована, каталог работает. Если ответ "я привык работать с этими данными и знаю, что им можно доверять" - это знание живёт в голове человека, а не в системе.