Данные 21 июня 2018 2 мин чтения

Пять лет большим данным: что выжило, что нет

Ретроспективный взгляд на волну big data: какие обещания реализовались, какие оказались хайпом и что из этого периода стоит взять в работу сегодня.

Примерно с 2012-2013 года "большие данные" стали главным технологическим нарративом для бизнеса. Hadoop, NoSQL, озёра данных, предиктивная аналитика - всё это обещало революцию в том, как компании принимают решения. Инвестиции шли, проекты запускались, консультанты работали.

Сейчас, в середине 2018 года, хорошее время, чтобы посмотреть назад без ностальгии и без скептицизма и задать простой вопрос: что из этого реально работает?

Что оказалось хайпом

Первое - идея, что компании должны собирать "все данные" на будущее. Это породило множество дорогостоящих озёр данных, которые превратились в болота: огромные хранилища плохо структурированных данных, которыми никто не пользуется. Хранение стоит дёшево - но работа с хаосом всё равно чего-то стоит.

Второе - ожидание, что Hadoop станет универсальной платформой для аналитики. MapReduce оказался слишком громоздким для интерактивных запросов. Большинство компаний, которые развернули Hadoop-кластеры на пике хайпа, либо добавили поверх Spark, либо постепенно мигрировали на другие решения.

Третье - убеждение, что объём данных сам по себе создаёт ценность. Данных стало больше - но качество принятых решений не выросло автоматически. Без правильно поставленных вопросов и дисциплины работы с данными большой объём даёт только большую путаницу.

Что реально работает

Первое - распределённые вычисления для больших объёмов. Идея горизонтального масштабирования обработки данных реальна и функциональна. Инструменты стали зрелее и управляемее: Spark вместо MapReduce, управляемые облачные сервисы вместо собственных кластеров.

Второе - потоковая обработка данных. Обработка событий в реальном или близком к реальному времени стала стандартной инфраструктурой для компаний с высокой частотой транзакций - банки, e-commerce, телеком. Это не хайп, это рабочая инфраструктура.

Третье - колоночное хранение для аналитики. Этот подход полностью изменил экономику аналитических запросов. Запросы, которые раньше занимали часы в реляционной базе, теперь выполняются за секунды. Это конкретное улучшение, которое реально используется.

Четвёртое - понимание того, что данные требуют инженерии. Один из самых ценных результатов волны big data - профессионализация работы с данными. Роли дата-инженера и аналитика данных перестали быть экзотикой и стали обычными позициями в технических командах.

Что взять из этого периода

Для руководителей, оценивающих накопленный опыт, несколько практических выводов.

Данные нужно собирать под конкретные задачи, а не на всякий случай. Это снижает стоимость и повышает качество.

Инструмент должен соответствовать задаче. Hadoop нужен, когда данных действительно петабайты и пакетная обработка достаточна. Для большинства компаний современные облачные аналитические сервисы - более разумный выбор.

Инвестиции в качество данных возвращаются больше, чем инвестиции в масштаб. Компании, которые тратили время на нормализацию, каталогизацию и управление данными, получили значительно больший возврат, чем те, кто просто наращивал объёмы хранения.

Озеро данных работает, если у него есть хозяин. Техническое решение без процесса управления - это будущее болото.

Волна big data - это не неудача и не успех. Это нормальный цикл созревания технологии: завышенные ожидания, разочарование, и затем реальное применение для конкретных задач. Мы сейчас на третьей стадии.

К списку статей

Контакт

Если эта статья отозвалась - напишите. Я отвечаю лично.

Telegram TenChat MAX