Данные 15 октября 2014 3 мин чтения

Потоковые конвейеры данных: почему пакетная обработка начинает показывать свои ограничения

Что меняется при переходе от ночных пакетных задач к непрерывным потокам данных и когда этот переход оправдывает добавленную сложность.

Для большинства компаний данные движутся пакетами. Система продаж экспортирует файл в полночь, хранилище его забирает, запускает трансформации, и к утру отчёты обновлены. Это была стандартная операционная модель для аналитики на протяжении десятилетий, и для многих случаев она по-прежнему работает нормально.

Но есть растущая категория задач, где «к утру» - это слишком поздно, и пакетная модель начинает прогибаться под весом требований, для которых она не была спроектирована. Нужны ли бизнесу данные практически в реальном времени или достаточно обновлений раз в 15 минут - это зависит от того, какие решения принимаются и насколько быстро.

Что предполагает пакетная обработка

Пакетная модель предполагает, что мир можно описать снимками. Вы делаете снимок данных в момент времени, обрабатываете его и производите результаты. Результаты настолько свежи, насколько свеж последний снимок.

Это хорошо работает, когда вопросы, на которые нужно отвечать, обращены в прошлое: что произошло на прошлой неделе, каков был итог за прошлый квартал, какие клиенты что купили за последний месяц. Такая аналитика имеет естественные временные горизонты, которые вписываются в ночные или часовые пакеты.

Модель начинает давать сбои, когда вопросы становятся реальным временем: мошенническая ли эта транзакция прямо сейчас, ведёт ли себя эта машина аномально в последние пять минут, что смотрит пользователь и что показать ему дальше. Для таких вопросов вчерашний пакет структурно нерелевантен.

Что предлагает потоковая архитектура

Потоковая архитектура, вместо сбора данных и их пакетной обработки через интервалы, обрабатывает каждое событие по мере поступления. Конвейер всегда работает. Результаты обновляются непрерывно.

Apache Kafka, открытый LinkedIn в 2011 году и ставший к 2014-му самым обсуждаемым инструментом в этой области, построен вокруг этой модели. Он работает как долговечный, высокопропускной журнал событий. Потребители читают из этого журнала практически в реальном времени, и поскольку журнал сохраняется, несколько downstream-систем могут обрабатывать один и тот же поток независимо, не мешая друг другу.

Практическое следствие: обнаружение мошенничества, аналитика и операционные оповещения могут читать из одного потока событий, каждый в своём темпе, не блокируя друг друга.

Сложность, которая приходит вместе

Потоковые конвейеры не являются безусловным улучшением по сравнению с пакетными задачами. Это другой компромисс. Когда реальное время оправдано, а когда ночной батч - это честный выбор, зависит от требований к задержке, которые большинство команд недоопределяют до перехода на потоковую инфраструктуру. Пакетные задачи проще рассуждать о них, проще перезапускать при ошибке и проще тестировать. Можно проверить входной файл, запустить задачу, проверить результат.

Потоковый конвейер всегда в движении. Для его отладки нужны другие инструменты и другие ментальные модели. Обработка событий с опозданием - данных, приходящих не по порядку из-за задержек сети или повторных попыток, - требует явных проектных решений, с которыми пакетная обработка просто не сталкивается.

Операционные накладные расходы тоже выше. Кластеры Kafka требуют настройки и мониторинга. Режимы отказа сложнее, чем «задача упала в 2 ночи».

Когда это стоит рассматривать

Порог, которым я пользуюсь: если бизнес теряет что-то измеримое из-за того, что ключевые решения принимаются на данных с опозданием в часы, тогда как могло бы быть минуты, - потоки стоит обсудить. Если основная причина желания - что это звучит современнее, чем пакетные задачи, - вероятно, оно не стоит операционной сложности при нынешнем масштабе.

Обнаружение мошенничества, управление запасами в реальном времени, живые операционные дашборды для производства или логистики - это случаи, где снижение задержки реально ценно. Стандартная аналитическая отчётность для менеджмента обычно нет.

Практическая заметка о переходе

Очень мало команд прыгают напрямую от пакетной обработки к полному стримингу. Более распространённый путь - гибрид: сохранить существующие пакетные процессы для стабильной отчётности и добавить стриминг только для конкретных случаев использования, где важно реальное время. Модель хранения журнала в Kafka это хорошо поддерживает - можно запускать пакетных потребителей рядом с потоковыми на одних и тех же данных.

Этот постепенный путь менее эффектен, но значительно лучше управляем.

К списку статей

Контакт

Если эта статья отозвалась - напишите. Я отвечаю лично.

Telegram TenChat MAX