Хранилище данных без команды аналитиков
Как небольшая компания может выстроить управляемое хранилище данных, не нанимая отдел BI и не покупая дорогую платформу.
Когда говорят "хранилище данных", в голове обычно возникает картина корпоративного ИТ-проекта на два года и команды из десяти человек. Для среднего бизнеса это звучит как "не про нас". Но отсутствие хранилища имеет вполне конкретную цену - данные живут в разных системах, каждый отчёт собирается руками заново, а на вопрос "сколько мы заработали на этом сегменте за год" уходит неделя.
Я хочу описать более скромный вариант - тот, который реально строится небольшой командой и при этом решает большинство практических задач.
Что нужно от хранилища на самом деле
Прежде чем думать о технологии, стоит ответить на вопрос: зачем оно нужно. В большинстве компаний среднего размера ответ сводится к нескольким практическим вещам.
Нужна одна точка, где данные из разных источников - CRM, учётная система, сайт - собраны в общую картину. Нужно, чтобы история не терялась при обновлении систем. Нужно, чтобы аналитик мог ответить на вопрос руководителя без двухдневного перелопачивания Excel.
Это не требует платформы масштаба крупного банка. Это требует дисциплины и нескольких простых решений.
С чего начинается нормальное хранилище
Первый шаг - инвентаризация источников. Что у вас есть: CRM, ERP, платёжный сервис, рекламные кабинеты, выгрузки из 1С. Для каждого источника - кто владелец, как часто данные меняются, можно ли к ним подключиться автоматически или только вручную.
Второй шаг - выбор «приёмника». Это может быть PostgreSQL на арендованном сервере, Google BigQuery или любая другая база, в которую можно писать из разных источников и делать запросы - запуск Amazon Redshift в конце 2012 года изменил экономику этого выбора. Для начала важно не выбрать идеальное решение, а выбрать то, что команда умеет обслуживать.
Третий шаг - организовать регулярную загрузку хотя бы из двух-трёх ключевых источников. Даже если это скрипт, запускающийся раз в сутки - это уже хранилище, которое работает.
Где чаще всего ошибаются
Самая распространённая ошибка - начинать с инструмента вместо задачи. Компания покупает дорогую BI-платформу, тратит полгода на внедрение и получает красивые дашборды, которыми никто не пользуется, потому что данные в них не точнее тех, что были в Excel.
Вторая ошибка - пытаться сделать всё сразу. Хранилище, которое охватывает все источники с первого дня, строится годами и часто не заканчивается никогда. Работающий прототип из трёх источников через месяц ценнее идеального проекта через год.
Третья ошибка - не назначить владельца. Если хранилищем не занимается конкретный человек, через три месяца оно превращается в ещё один источник несогласованных данных.
Что делать, если нет ресурсов
Если нет ни бюджета на платформу, ни человека в штате - стоит начать с малого и явного. Зафиксируйте источники в одном документе. Договоритесь, кто и как часто выгружает данные из каждого. Выберите один общий формат хранения. Назначьте одного человека, который следит за актуальностью.
Это не хранилище в технологическом смысле. Но это та дисциплина, без которой любая технология не поможет.
Вопросы для проверки готовности
Прежде чем вкладываться в инструменты, ответьте на пять вопросов:
- Какие решения вы принимаете, которые сейчас тормозит отсутствие данных?
- Из каких систем вам нужны данные и кто ими управляет?
- Кто в команде может взять на себя техническое обслуживание?
- Как часто вам нужно обновление - раз в день достаточно, или нужен реальный режим времени?
- Что вы будете считать успехом через три месяца?
Если на эти вопросы есть чёткие ответы - можно двигаться к выбору технологии. Если нет - начинать надо с ответов, а не с демо-версий платформ.