Качество данных раньше аналитики: почему грязная справочность съедает любой BI
Дашборды и BI-системы дают ответы ровно такого качества, какого качества данные под ними. Пока нет порядка в справочниках и мастер-данных, визуализация только делает беспорядок убедительнее.
Компания покупает BI-систему, строит дашборды, добавляет красивые графики. Через несколько месяцев руководство перестаёт доверять цифрам. "У тебя одно число, у неё другое, у системы третье - как нам понять, которое правильное?"
Я слышу это часто. И почти всегда проблема не в BI и не в аналитиках. Проблема в данных, которые легли в основу.
Что такое "грязная справочность"
Справочники - это данные о сущностях, которые встречаются по всей компании: клиенты, контрагенты, продукты, сотрудники, склады, счета. Когда они в порядке - разные системы говорят об одном и том же с помощью одного и того же идентификатора. Когда нет - начинается хаос.
Типичные симптомы:
- один клиент записан в CRM под одним именем, в ERP под другим, в базе доставки под третьим;
- продукт имеет разные артикулы в разных системах и нигде нет таблицы соответствий;
- "регион" в одном отчёте - это федеральный округ, в другом - область, в третьем - часовой пояс;
- контрагент записан с ИНН и без, в разных форматах наименования, с историческими дублями.
BI-система берёт эти данные и честно их показывает. Аналитик честно их считает. Результат - красивый график, который не отвечает ни на один реальный вопрос.
Почему это не решается на уровне отчётов
Распространённая реакция - попытаться исправить проблему там, где она видна: в отчёте. Добавить условие в запрос, склеить поля вручную, написать Excel-таблицу соответствий.
Это работает один раз для одного отчёта. Потом появляется второй отчёт, третий, четвёртый. У каждого своя логика склейки. Через год в компании десять отчётов с десятью разными интерпретациями одних и тех же данных - и никакой уверенности в том, что любой из них правильный.
Фикс в отчёте - это симптоматическое лечение. Корень проблемы - в отсутствии управления мастер-данными: пока фундамент данных не приведён в порядок, любой слой, построенный поверх него, только делает беспорядок убедительнее.
Что такое MDM и зачем он нужен
MDM - управление основными данными (Master Data Management) - это не конкретный продукт и не программное обеспечение. Это процесс и ответственность.
Его смысл прост: в компании должен быть один авторитетный источник для ключевых сущностей. Если клиент - то один реестр клиентов, из которого все системы берут данные. Если продукт - то один каталог, за которым закреплён владелец, который следит за его актуальностью.
Практически это означает:
- назначить ответственного за каждый ключевой справочник;
- описать правила: что считается дублем, как называть, какой формат;
- выбрать источник правды и прописать, как другие системы с ним синхронизируются;
- ввести процедуры для новых записей: кто создаёт, кто проверяет.
Это организационная работа. Инструменты помогают, но без процесса и ответственности никакой инструмент не спасёт.
Когда браться за порядок в данных
Есть признаки, что момент пришёл:
- одни и те же показатели считаются по-разному в разных отделах;
- объединение двух отчётов требует ручного согласования;
- при смене одной системы непонятно, как перенести данные в другую;
- новый сотрудник не может самостоятельно разобраться, откуда брать "правильные" цифры.
Всё это признаки одного: данные накапливались без управления. Вложение в BI в этом состоянии даст красивый интерфейс поверх беспорядка.
Практический порядок действий
Я обычно предлагаю такую последовательность:
- Выявить три-пять ключевых справочников, которые используются в большинстве отчётов.
- Для каждого - найти текущий источник правды или выбрать его, если явного нет.
- Назначить владельца и договориться о правилах.
- Зафиксировать соответствия между разными идентификаторами в системах.
- Только после этого строить или перестраивать слой аналитики поверх.
Это не быстро. Но без этого шага любой BI-проект через год оказывается в той же точке: красивые дашборды и недоверие к цифрам.