Большие данные без магии: с чего начинать, если данных уже много, а пользы мало
Почему инвентаризация источников и метрик важнее закупки платформы, и как добраться до реальной пользы от данных.
Тема больших данных сейчас переживает период, когда все о ней говорят, но мало кто понимает, что с ней делать. Конференции обещают революцию. Вендоры предлагают платформы. ИТ-директора получают запросы от руководства разобраться с big data.
В реальности у большинства компаний другая проблема. Данных уже много - они копятся в CRM, ERP, логах, таблицах, почте, файловых серверах. Просто пользы от них нет. И ответ здесь не в том, чтобы купить платформу для ещё большего количества данных.
Откуда берётся ощущение "данных много, пользы мало"
Это почти всегда следствие нескольких одновременно действующих проблем.
Данные есть, но они разрознены. Каждая система хранит свою часть картины, эти части не соединены, и чтобы получить полный ответ, нужно вручную собирать данные из нескольких мест - каждый раз заново.
Данные есть, но никто не знает, каким можно доверять. Одни и те же показатели считаются по-разному в разных отделах. Нет согласованного определения того, что такое "продажа", "клиент" или "активный пользователь".
Данные есть, но нет вопросов. Информация собирается, потому что "а вдруг пригодится", а не потому что есть конкретные управленческие задачи, на которые нужны ответы.
Данные есть, но их никто не поддерживает. Базы устаревают. Справочники не обновляются. Процесс сбора данных перестал соответствовать тому, как работает бизнес.
Почему платформа не решает эти проблемы
Hadoop, Cassandra, любая другая распределённая система - это инструмент для работы с конкретными масштабами и конкретными сценариями нагрузки. Это не инструмент для наведения порядка.
Если данные разрознены, платформа их не объединит сама. Если определения метрик не согласованы между отделами, новое хранилище это не исправит. Если нет понимания, какие вопросы должны получать ответы, любая аналитическая инфраструктура будет стоять без дела.
Хуже того: переезд на новую платформу часто откладывает решение реальных проблем. Компания тратит несколько месяцев на внедрение, а потом обнаруживает, что стала хранить те же хаотичные данные, только в более дорогой системе.
С чего на самом деле нужно начинать
Начинать нужно с инвентаризации - не железа, а источников данных и метрик.
Инвентаризация источников: что у вас есть, где физически хранится, кто отвечает за достоверность, как часто обновляется, насколько данные актуальны.
Инвентаризация метрик: какие показатели реально используются для принятия решений, как они считаются, совпадает ли это определение у всех, кто ими пользуется.
Это скучная работа. Она не выглядит как "проект по большим данным". Но без неё всё последующее - это строительство на плохом фундаменте.
Как выглядит хороший следующий шаг
После инвентаризации обычно становятся видны три-четыре задачи, которые реально мешают работе с данными. Это может быть: нет единого источника правды по клиентской базе; данные о продажах считаются по-разному в CRM и в финансовой системе; нет истории изменений по ключевым объектам.
Каждую из этих задач можно решить локально - без закупки платформы. Нормализовать справочник клиентов. Договориться об определении продажи и зафиксировать его в регламенте. Настроить историческое хранение нужных изменений там, где это уже есть.
Только когда базовый порядок наведён и есть конкретные аналитические задачи с реальными объёмами данных - тогда имеет смысл говорить о платформе.
Простая проверка готовности
Перед тем как принимать решение о платформе или большом проекте по данным, я рекомендую честно ответить:
- Можете ли вы сегодня назвать три главных метрики вашего бизнеса и объяснить точно, как они считаются?
- Если два аналитика возьмут одни и те же данные за один период, получат ли они одинаковый ответ?
- Знаете ли вы, кто в компании отвечает за достоверность ключевых данных?
- Есть ли у вас список конкретных вопросов, на которые вы хотите получить ответ с помощью данных, но пока не можете?
Если на первые три вопроса ответ "нет" или "не уверен" - проект начинается не с платформы. Он начинается с наведения порядка.