m@ksim.pro
Блог

Заметки о данных, ИИ, ИТ и безопасности

Без маркетингового тумана. Так, как я думаю о задачах в реальной работе с собственниками и руководителями.

Данные

ETL-пайплайн - это производственная линия, и мониторить её надо соответственно

Почему отказ ETL-процессов - это операционный инцидент, а не техническая неполадка, и как выстраивать наблюдаемость за потоками данных.

Читать
Данные

Почему подготовка признаков всё ещё важна в эпоху глубокого обучения

Глубокое обучение автоматизирует извлечение признаков - но не отменяет необходимость думать о том, какие данные вы подаёте на вход модели.

Читать
Данные

Кто отвечает за качество данных в компании, которая не является IT-компанией

Проблемы с качеством данных встречаются повсеместно. Ответственность за них - редкость. Разбор того, как назначить владельцев без создания бюрократического слоя, которым никто не пользуется.

Читать
Данные

Потоковая обработка данных: когда она нужна и когда батч достаточен

Как понять, нужна ли компании потоковая обработка данных или это избыточная сложность для задач, которые отлично решаются пакетной загрузкой.

Читать
Данные

Хранилище данных или data lake: как не ошибиться с выбором

Разбор двух архитектурных подходов к хранению корпоративных данных и критерии выбора для компаний среднего размера.

Читать
Данные

Пять лет большим данным: что выжило, что нет

Ретроспективный взгляд на волну big data: какие обещания реализовались, какие оказались хайпом и что из этого периода стоит взять в работу сегодня.

Читать
Данные

Единый источник правды для операционной отчётности

Почему в большинстве компаний нет единой цифры и что нужно сделать, чтобы она появилась - без большого ИТ-проекта.

Читать
Данные

Конвейер данных - это производственная система, а не скрипт

Почему компании теряют доверие к аналитике, когда относятся к пайплайнам данных как к разовым задачам, а не к эксплуатируемым системам.

Читать
Данные

Качество данных: четыре метрики, которые реально работают

Большинство программ по качеству данных заходят в тупик из-за абстрактных метрик. Вот четыре конкретных измерения, которые рано выявляют проблемы и связаны с бизнес-результатами.

Читать
Данные

PostgreSQL как основная база данных: что изменилось для бизнеса

Почему PostgreSQL перестал быть нишевым выбором и что нужно проверить перед тем, как сделать его основой корпоративной архитектуры.

Читать
Данные

Data lake: вопросы, которые нужно задать до начала строительства

Почему концепция data lake часто превращается в data swamp, и какие вопросы стоит задать до того, как тратить бюджет.

Читать
Данные

Данные в реальном времени: когда это оправдано, а когда переинженерено

Как отличить бизнес-задачи, которым действительно нужна потоковая обработка данных, от тех, где достаточно обычных пакетных обновлений.

Читать