Данные 25 мая 2021 3 мин чтения

Потоковая обработка данных: нужна ли она вашей компании

Что такое потоковая обработка данных, чем она отличается от пакетной и в каких реальных ситуациях это оправданное решение.

Потоковая обработка данных - тема, которая регулярно всплывает в разговорах о современной дата-архитектуре. Apache Kafka, Apache Flink, потоки событий, real-time аналитика. Звучит технически сложно и, как это часто бывает, иногда применяется там, где в этом нет необходимости.

Я объясню, что это такое простыми словами, и - главное - как понять, нужно ли это вашей компании или нет.

Пакетная против потоковой: в чём разница

Большинство традиционных аналитических систем работают пакетно. Данные накапливаются где-то в источнике, потом один раз в день (или раз в час, или раз в неделю) загружаются в хранилище, трансформируются, и становятся доступны для анализа. Ночной ETL-процесс - классический пример пакетной обработки.

Потоковая обработка работает иначе: данные обрабатываются по мере поступления, в реальном времени или близко к нему. Событие произошло - и через секунды или минуты оно уже учтено в системе.

Это не лучше и не хуже пакетной обработки. Это решение для другого класса задач.

Когда нужна потоковая обработка

Реальная потребность в потоках возникает в нескольких конкретных ситуациях.

Когда задержка данных влияет на бизнес-решение. Если решение принимается немедленно - например, одобрить транзакцию, показать персональное предложение, среагировать на аномалию - задержка в сутки или даже в час делает данные бесполезными. В этом случае пакетная обработка не решает задачу.

Когда объём событий слишком велик для периодической загрузки. Если ваша система генерирует миллионы событий в секунду - попытка загрузить их пачкой раз в сутки создаёт узкое место. Потоки позволяют обрабатывать непрерывно без накопления.

Когда нужно реагировать на паттерны в реальном времени. Обнаружение мошенничества, мониторинг промышленного оборудования, управление трафиком - задачи, где важно выявить аномалию сейчас, а не в следующем утреннем отчёте.

Когда потоковая обработка не нужна

Если ваши аналитические отчёты обновляются раз в день и этого достаточно для принятия решений - вам не нужны потоки. Пакетный процесс дешевле, проще в поддержке и менее чувствителен к сбоям.

Если ваши объёмы данных умеренные - несколько миллионов записей в день - пакетная обработка справится без проблем.

Если ваша команда не имеет опыта работы с потоковыми системами - начало с Kafka или Flink создаст операционную нагрузку, несоразмерную с ценностью.

Потоковая обработка операционно сложнее пакетной. Отладка, мониторинг, обеспечение корректности при сбоях - всё это требует экспертизы, которая в большинстве небольших команд не нужна.

Практический тест для принятия решения

Прежде чем рассматривать потоковую обработку, ответьте на три вопроса:

Какое конкретное бизнес-решение принимается немедленно и на основании свежих данных? (Если такого решения нет - потоки не нужны.)
Какова приемлемая задержка для этих данных - минута, час, сутки? (Если сутки достаточно - это задача для пакетной обработки.)
Есть ли в команде опыт эксплуатации потоковых систем, или это придётся осваивать с нуля? (Если с нуля - оцените реалистично время и ресурсы.)

Потоковая обработка - ценная технология для правильного класса задач. Но правильный класс задач встречается реже, чем кажется из технических статей.

К списку статей

Контакт

Если эта статья отозвалась - напишите. Я отвечаю лично.

Telegram TenChat MAX