Пять лет большим данным: что выжило, что нет
Ретроспективный взгляд на волну big data: какие обещания реализовались, какие оказались хайпом и что из этого периода стоит взять в работу сегодня.
Примерно с 2012-2013 года "большие данные" стали главным технологическим нарративом для бизнеса. Hadoop, NoSQL, озёра данных, предиктивная аналитика - всё это обещало революцию в том, как компании принимают решения. Инвестиции шли, проекты запускались, консультанты работали.
Сейчас, в середине 2018 года, хорошее время, чтобы посмотреть назад без ностальгии и без скептицизма и задать простой вопрос: что из этого реально работает?
Что оказалось хайпом
Первое - идея, что компании должны собирать "все данные" на будущее. Это породило множество дорогостоящих озёр данных, которые превратились в болота: огромные хранилища плохо структурированных данных, которыми никто не пользуется. Хранение стоит дёшево - но работа с хаосом всё равно чего-то стоит.
Второе - ожидание, что Hadoop станет универсальной платформой для аналитики. MapReduce оказался слишком громоздким для интерактивных запросов. Большинство компаний, которые развернули Hadoop-кластеры на пике хайпа, либо добавили поверх Spark, либо постепенно мигрировали на другие решения.
Третье - убеждение, что объём данных сам по себе создаёт ценность. Данных стало больше - но качество принятых решений не выросло автоматически. Без правильно поставленных вопросов и дисциплины работы с данными большой объём даёт только большую путаницу.
Что реально работает
Первое - распределённые вычисления для больших объёмов. Идея горизонтального масштабирования обработки данных реальна и функциональна. Инструменты стали зрелее и управляемее: Spark вместо MapReduce, управляемые облачные сервисы вместо собственных кластеров.
Второе - потоковая обработка данных. Обработка событий в реальном или близком к реальному времени стала стандартной инфраструктурой для компаний с высокой частотой транзакций - банки, e-commerce, телеком. Это не хайп, это рабочая инфраструктура.
Третье - колоночное хранение для аналитики. Этот подход полностью изменил экономику аналитических запросов. Запросы, которые раньше занимали часы в реляционной базе, теперь выполняются за секунды. Это конкретное улучшение, которое реально используется.
Четвёртое - понимание того, что данные требуют инженерии. Один из самых ценных результатов волны big data - профессионализация работы с данными. Роли дата-инженера и аналитика данных перестали быть экзотикой и стали обычными позициями в технических командах.
Что взять из этого периода
Для руководителей, оценивающих накопленный опыт, несколько практических выводов.
Данные нужно собирать под конкретные задачи, а не на всякий случай. Это снижает стоимость и повышает качество.
Инструмент должен соответствовать задаче. Hadoop нужен, когда данных действительно петабайты и пакетная обработка достаточна. Для большинства компаний современные облачные аналитические сервисы - более разумный выбор.
Инвестиции в качество данных возвращаются больше, чем инвестиции в масштаб. Компании, которые тратили время на нормализацию, каталогизацию и управление данными, получили значительно больший возврат, чем те, кто просто наращивал объёмы хранения.
Озеро данных работает, если у него есть хозяин. Техническое решение без процесса управления - это будущее болото.
Волна big data - это не неудача и не успех. Это нормальный цикл созревания технологии: завышенные ожидания, разочарование, и затем реальное применение для конкретных задач. Мы сейчас на третьей стадии.