Amazon Redshift и новая экономика DWH: аналитику больше не обязаны строить годами
Облачное MPP-хранилище меняет не только стек, но и психологию пилота. Почему правильный вопрос теперь не 'можем ли мы себе это позволить', а 'с чего начать'.
В октябре 2012 года Amazon запустил Redshift в общем доступе. Колоночное MPP-хранилище данных, управляемое облаком, по цене, которая раньше не существовала в этом классе систем. Несколько сотен долларов в месяц за то, что раньше стоило сотни тысяч в железе и лицензиях.
Я хочу поговорить не о технических характеристиках Redshift, а о том, что меняется в подходе к аналитике, когда экономика задачи меняется настолько радикально.
Что такое MPP и почему это было дорого
MPP - massively parallel processing - это архитектура, при которой запрос к большому объёму данных выполняется не на одной машине, а на кластере, где каждый узел обрабатывает свою часть. Это позволяет делать аналитику на миллиардах строк за секунды, а не за часы. В основе этой скорости лежат колоночные хранилища, которые кардинально меняют темп аналитики.
До облака такая инфраструктура требовала: покупки железа, лицензий на специализированное ПО, команды для установки и настройки, и долгого цикла закупки. Минимальный порог входа - несколько сотен тысяч долларов и полгода работы. Это означало, что серьёзная аналитика была доступна только крупным компаниям с выделенными ресурсами.
Redshift убирает большую часть этого барьера. Кластер запускается за минуты. Стоимость начинается с уровня, который доступен среднему бизнесу. Управление инфраструктурой берёт на себя Amazon.
Что меняется в психологии пилота
Когда порог входа высокий, первый вопрос - "можем ли мы себе это позволить". Это вопрос бюджета и обоснования. Он требует бизнес-кейса, одобрения, планирования на квартал вперёд.
Когда порог входа низкий, первый вопрос меняется на "с чего начать". Это другая психология. Пилот перестаёт быть обязательством - он становится экспериментом. Вместо того чтобы доказывать ценность до начала работы, можно показать её за несколько недель реальной работы.
Это важно не только технически. Это меняет то, как принимаются решения об аналитической инфраструктуре. Технический директор или директор по данным больше не должен убеждать финансового директора в абстрактной ценности хранилища - он может показать конкретный результат на конкретных данных за разумные деньги.
Что реально меняет облачный DWH в операциях
Несколько вещей, которые становятся практически доступными для компаний, которые раньше не могли этого сделать:
Исторические данные. Традиционные OLTP-базы данных не предназначены для аналитических запросов по большим объёмам истории. Хранилище позволяет хранить и анализировать данные за годы без деградации производительности.
Интеграция источников. Данные из CRM, ERP, веб-аналитики, финансовой системы можно свести в одно место и строить аналитику поверх единой модели, а не переключаться между отчётами из разных систем.
SQL как общий язык. Redshift использует стандартный SQL с минимальными расширениями. Аналитик, который умеет писать запросы, может начать работать без обучения специализированному инструменту.
Масштабирование под задачу. Кластер можно увеличить под пиковую нагрузку и уменьшить обратно. Для компаний с сезонностью или разовыми аналитическими задачами это существенная экономия.
Что это не решает
Честный разговор требует также сказать, что облачный DWH не отменяет работу с данными - он её упрощает на инфраструктурном уровне.
Качество данных по-прежнему определяется тем, что в хранилище загружается. Если источники неупорядочены, Redshift будет работать быстро с хаосом - что не лучше медленной работы с хаосом. Модель данных по-прежнему требует проектирования. ETL-процессы по-прежнему нужно строить и поддерживать.
Redshift убирает инфраструктурный барьер. Аналитический барьер - понимание бизнеса, качество данных, дисциплина обновлений - остаётся.
Вопросы для оценки готовности
Перед тем как запускать пилот с облачным хранилищем, полезно ответить на несколько вопросов:
- Какие конкретные аналитические вопросы мы не можем ответить сейчас из-за инфраструктурных ограничений?
- Есть ли у нас данные, которые стоит собрать в одном месте, но они сейчас разбросаны?
- Кто будет писать запросы и строить модель данных?
- Как мы будем поддерживать актуальность данных - это разовая загрузка или регулярный процесс?
Если на эти вопросы есть ответы - пилот имеет смысл и его стоимость теперь не является препятствием.