Заметки о данных, ИИ, ИТ
и безопасности
Без маркетингового тумана. Так, как я думаю о задачах в реальной работе с собственниками и руководителями.
ETL-пайплайн - это производственная линия, и мониторить её надо соответственно
Почему отказ ETL-процессов - это операционный инцидент, а не техническая неполадка, и как выстраивать наблюдаемость за потоками данных.
Почему подготовка признаков всё ещё важна в эпоху глубокого обучения
Глубокое обучение автоматизирует извлечение признаков - но не отменяет необходимость думать о том, какие данные вы подаёте на вход модели.
Кто отвечает за качество данных в компании, которая не является IT-компанией
Проблемы с качеством данных встречаются повсеместно. Ответственность за них - редкость. Разбор того, как назначить владельцев без создания бюрократического слоя, которым никто не пользуется.
Потоковая обработка данных: когда она нужна и когда батч достаточен
Как понять, нужна ли компании потоковая обработка данных или это избыточная сложность для задач, которые отлично решаются пакетной загрузкой.
Хранилище данных или data lake: как не ошибиться с выбором
Разбор двух архитектурных подходов к хранению корпоративных данных и критерии выбора для компаний среднего размера.
Пять лет большим данным: что выжило, что нет
Ретроспективный взгляд на волну big data: какие обещания реализовались, какие оказались хайпом и что из этого периода стоит взять в работу сегодня.
Единый источник правды для операционной отчётности
Почему в большинстве компаний нет единой цифры и что нужно сделать, чтобы она появилась - без большого ИТ-проекта.
Конвейер данных - это производственная система, а не скрипт
Почему компании теряют доверие к аналитике, когда относятся к пайплайнам данных как к разовым задачам, а не к эксплуатируемым системам.
Качество данных: четыре метрики, которые реально работают
Большинство программ по качеству данных заходят в тупик из-за абстрактных метрик. Вот четыре конкретных измерения, которые рано выявляют проблемы и связаны с бизнес-результатами.
PostgreSQL как основная база данных: что изменилось для бизнеса
Почему PostgreSQL перестал быть нишевым выбором и что нужно проверить перед тем, как сделать его основой корпоративной архитектуры.
Data lake: вопросы, которые нужно задать до начала строительства
Почему концепция data lake часто превращается в data swamp, и какие вопросы стоит задать до того, как тратить бюджет.
Данные в реальном времени: когда это оправдано, а когда переинженерено
Как отличить бизнес-задачи, которым действительно нужна потоковая обработка данных, от тех, где достаточно обычных пакетных обновлений.