Заметки о данных, ИИ, ИТ
и безопасности
Без маркетингового тумана. Так, как я думаю о задачах в реальной работе с собственниками и руководителями.
Каталог данных: дисциплина знать, что у вас есть
Почему управление метаданными - это не технический проект, а операционная необходимость для компаний, которые работают с данными серьёзно.
Data lake без управления превращается в болото
Почему проекты по созданию корпоративного озера данных часто заканчиваются хранилищем файлов, из которого никто не знает, как достать нужное.
Real-time данные и right-time данные: в чём разница и почему она важна
Не каждая задача требует данных в реальном времени. Ошибка в этом выборе стоит денег и усложняет архитектуру без пользы.
Кто владеет пайплайном данных, когда ответ - никто
В большинстве компаний пайплайны данных построены тем, кто нуждался в данных, не принадлежат никому и используются всеми. Это системная хрупкость, а не техническая проблема.
Чему учат падения Pokemon Go: геоданные в масштабе
Pokemon Go - не бизнес-приложение, но инфраструктурная история лета 2016 года - настоящий урок о том, что в действительности стоит работа с геоданными в масштабе.
PostgreSQL JSONB: когда не нужна отдельная NoSQL-база
Прежде чем добавлять MongoDB или другое документное хранилище в стек, стоит проверить, что уже умеет JSONB в PostgreSQL - и где он объективно заканчивается.
Kafka как шина данных: что это значит для компании
Apache Kafka перестаёт быть только инструментом больших технологических компаний. Вот как объяснить её роль без технического жаргона.
Журнал событий как источник правды: зачем это нужно бизнесу
Event sourcing - не просто архитектурный паттерн. Это способ сохранить историю изменений и дать аналитике честный фундамент.
Сбор данных в полевых операциях: от бумаги к структурированному потоку
Компании с выездными командами теряют данные на этапе сбора. Разбираю, как перейти от бумажных форм и Excel к управляемому процессу.
Потоковая обработка событий: когда бизнесу стоит на это смотреть
Apache Kafka и потоковая архитектура - не только для интернет-гигантов. Разбираю, какие бизнес-задачи оправдывают этот подход и где он избыточен.
Почему структурирование данных должно предшествовать любой ML-модели
Прежде чем разговор доходит до выбора алгоритма, нужно разобраться с тем, из чего модель будет учиться. Разбираю этот шаг подробно.
Потоковая обработка данных: когда операционные решения не терпят отложенного пакета
Когда бизнесу нужна потоковая обработка вместо пакетной, и что нужно решить до внедрения Kafka или аналогов.