Данные 24 марта 2021 3 мин чтения

Data catalog: зачем нужен и когда без него можно обойтись

Практический взгляд на реестр данных: что он даёт, когда оправдывает вложения и когда это преждевременное усложнение.

Data catalog - реестр данных компании: что есть, откуда берётся, кто отвечает, как использовать. Тема стала популярной на волне роста интереса к data governance и ИИ-проектам. Вместе с популярностью появился и знакомый эффект: инструмент начинают внедрять раньше, чем возникает реальная потребность в нём.

Я расскажу, когда data catalog действительно решает проблему, а когда это лишний слой, который требует поддержки, но не приносит пользы.

Что происходит без каталога

В небольших командах отсутствие каталога обычно не проблема. Все знают, что где лежит, потому что сами и создавали. Документация существует в виде памяти трёх человек.

Проблема появляется при росте - команды, систем, объёма данных. Появляются вопросы, ответы на которые не найти быстро: в какой таблице хранятся данные о заказах за прошлый год? Это та же таблица, что использует аналитик маркетинга? Поле "customer_id" тут и там означает одно и то же? Кто может объяснить, почему в этом столбце встречаются нулевые значения?

Если такие вопросы занимают часы и требуют поиска конкретного человека - это потери, которые накапливаются незаметно, но дорого обходятся.

Что даёт каталог данных

В своём минимальном виде data catalog - это документированный ответ на вопрос "что у нас есть". Список источников, таблиц, ключевых полей с их смыслом, и - самое важное - кто отвечает за каждый набор данных.

В более полном виде он добавляет: историю изменений, классификацию по чувствительности данных, связи между объектами, метрики качества.

Для ИИ-проектов каталог особенно ценен: прежде чем начинать пилот, нужно понять, какие данные доступны. Без каталога это исследование занимает недели.

Когда каталог не нужен

Если у вас одна-две аналитических системы и команда аналитиков до пяти человек - полноценный data catalog преждевременен. Затраты на его ведение превысят пользу. Структурированного внутреннего документа или Wiki с описанием ключевых источников будет достаточно.

Если аналитика в компании делается нерегулярно и в основном вручную - каталог создаст иллюзию порядка без реального улучшения.

Если никто не будет его поддерживать - лучше не начинать. Устаревший каталог хуже его отсутствия: он создаёт ложное ощущение, что всё документировано.

Три признака, что время пришло

Первый: в команде больше одного аналитика, и они регулярно переспрашивают друг друга о структуре данных.

Второй: новый сотрудник или подрядчик не может самостоятельно разобраться, откуда берётся конкретный показатель, за разумное время.

Третий: в компании есть чувствительные данные (персональные, финансовые, коммерческие), и нет чёткого понимания, где именно они хранятся и кто имеет к ним доступ.

Если хотя бы один признак есть - инвестиции в минимальный каталог оправданы.

Как начать без больших вложений

Дорогие enterprise-решения не нужны на старте. Начните с малого:

Создайте единый документ или Wiki-страницу со списком всех ключевых источников данных.
Для каждого источника укажите: что в нём хранится, откуда данные поступают, кто отвечает.
Договоритесь об обновлении при любом изменении структуры.
Сделайте это частью процесса работы с данными, а не разовой акцией.

Такой каталог решает 80% проблем. Специализированные инструменты добавляют ценность позже, когда база уже есть и понятно, что именно не хватает.

К списку статей

Контакт

Если эта статья отозвалась - напишите. Я отвечаю лично.

Telegram TenChat MAX