Данные 31 марта 2015 3 мин чтения

ETL-пайплайны ломаются тихо - и это разрушает доверие к данным

Как ETL-пайплайны незаметно ухудшают качество данных и что делать, пока дашборды не превратились в декорации.

В какой-то момент почти в каждом дата-проекте команда начинает оговариваться о собственных отчётах. «Цифры, наверное, правильные, но последняя синхронизация давала сбои». «Продажи выглядят странно - пайплайн мог пропустить записи». Когда такой язык становится нормой, теряется кое-что важное. Не число - доверие к данным.

ETL-пайплайны - одно из главных мест, где это доверие разрушается медленно и незаметно.

Проблема тихих сбоев

Пайплайны ломаются громко и тихо. Громкие сбои почти нормальны - задача падает, срабатывают алерты, кто-то разбирается. Тихие сбои опасны: задача завершается успешно, записи обрабатываются, а результат неверный.

Тихие режимы отказа, которые я вижу регулярно:

схема источника меняется незаметно, и пайплайн продолжает загружать не те столбцы, заполняя нулями или значениями по умолчанию;
ключ дедупликации не уникален в источнике, и записи молча теряются или умножаются;
несоответствие часовых поясов или кодировок вносит систематические смещения, которые никто не замечает неделями;
условие фильтра, верное на тестовых данных, оказывается неверным для объёма продакшн-данных;
частичная загрузка завершается без ошибки, потому что задача не знает, сколько записей ожидать.

Ни одно из этого не бросает исключение. Данные просто тихо портятся.

Почему мониторинга недостаточно

Стандартный ответ - «добавь мониторинг». Это помогает, но не решает проблему. Стандартный мониторинг пайплайна говорит, запустилась ли задача, сколько времени заняла и сколько строк обработала. Он не говорит, верны ли эти строки.

Мониторинг качества данных - это другое. Это отслеживание распределений, диапазонов, кардинальности и ссылочной целостности в выходных данных, а не только метрик процесса. Если количество уникальных клиентов в сегодняшней загрузке составляет 40% от вчерашнего - это сигнал. Мониторинг процесса не сработает на это.

Разрыв между «пайплайн отработал» и «данные верны» - это именно то место, где живёт большинство проблем с качеством данных.

Цена восстановления доверия

Когда аналитики перестают доверять источнику данных, вернуть это доверие очень сложно. Они начинают вести собственные выгрузки, собственные трансформации, собственные копии. В результате появляется несколько неофициальных «источников правды», которые расходятся всё дальше. Каждое совещание, где обсуждаются цифры, превращается в спор о том, какая версия данных настоящая.

Я видел компании, которые тратили больше усилий на управление этим расхождением, чем изначально потратили на построение пайплайна. Стоимость не только техническая - это время старших людей, которые сверяют таблицы вместо того, чтобы принимать решения.

Практический минимум для надёжного пайплайна

Прежде чем оптимизировать пропускную способность или добавлять новые источники, я рекомендую три вещи:

Контракты на количество строк. Определите ожидаемые диапазоны объёма загрузки по источнику и периоду. Поднимайте флаг и останавливайте - не просто логируйте - при нарушении диапазонов.
Отслеживание частоты нулей. Следите за долей нулевых значений для каждого ключевого поля. Внезапный скачок почти всегда означает изменение схемы или проблему извлечения выше по цепочке.
Сверка между системами. Выберите два-три числа, которые должны совпадать в источнике и в целевой системе - итоги, счётчики, контрольные суммы. Сравнивайте их автоматически при каждой загрузке.

Это не эффектная работа. Но это фундамент, делающий надёжным всё, что строится поверх.

Что исправлять первым

Если пайплайн уже работает в продакшне без всего вышеперечисленного - не останавливайте его для перестройки. Добавляйте проверки постепенно, запускайте параллельно и исправляйте находки. Цель - прийти к состоянию, когда команда может сказать «данные верны» без оговорок. Это и есть реальный результат работы по инжинирингу данных.

К списку статей

Контакт

Если эта статья отозвалась - напишите. Я отвечаю лично.

Telegram TenChat MAX