Данные о клиентах в кризис: как компании теряют сигнал
О том, почему аналитика поведения клиентов перестаёт работать в период резкого изменения контекста - и что с этим делать.
Компании, которые последние годы инвестировали в аналитику клиентского поведения, сейчас сталкиваются с неприятным открытием. Модели, которые хорошо работали месяц назад, стали давать странные результаты. Прогнозы разошлись с реальностью. Сегменты ведут себя непредсказуемо.
Это не техническая поломка. Это то, что называется distribution shift - смещение распределения входных данных. Мир изменился, а модели об этом не знают.
Почему аналитика теряет сигнал
Большинство аналитических и ML-моделей обучены на исторических данных, собранных в нормальных условиях. Эти данные отражают поведение людей в стабильной среде: обычные покупки, обычные маршруты, обычные приоритеты.
Сейчас условия изменились принципиально. Люди сидят дома. Многие потеряли источник дохода или тревожатся о нём. Приоритеты сдвинулись. Каналы потребления изменились. Паттерны, которые модель считала предиктивными - "человек, который делал X, обычно делает Y" - больше не работают так же.
Кроме того, изменился сам сигнал: данные за март-апрель 2020 года аномальны. Если использовать их для переобучения модели, есть риск "научить" модель реагировать на кризис, который может быть непохожим на следующий.
Какие конкретные проблемы возникают
Рекомендательные системы. Логика "люди с похожим поведением покупали это" ломается, когда все одновременно меняют поведение. Рекомендации начинают выглядеть нерелевантно.
Прогнозы спроса. Если прогноз строился на основе сезонных паттернов и трендов, сейчас он не работает. Спрос на одни товары вырос аномально, на другие - упал. Средние исторические значения не описывают текущую ситуацию.
Модели оттока. Признаки, которые раньше предсказывали отток клиентов, сейчас наблюдаются массово - даже у лояльных клиентов. Разделить "временное изменение поведения из-за кризиса" и "реальный отток" без дополнительного контекста трудно.
Что делать с аналитикой в этот период
Несколько практических подходов:
Разделить данные до и после. Явно пометить в данных границу изменения контекста. Не смешивать февральские и апрельские паттерны в одних моделях без понимания, что они описывают разную реальность.
Увеличить вес свежих данных или перейти к правилам. В ситуации, когда исторические паттерны ненадёжны, иногда правильнее временно заменить прогнозные модели на явные правила, основанные на текущем понимании ситуации.
Смотреть на абсолютные цифры, а не на изменения. Если всё изменилось, процентные изменения относительно прошлого периода мало что говорят. Важнее абсолютные уровни и сравнение с ожиданиями, скорректированными вручную.
Не делать крупных переобучений модели прямо сейчас. Данные за кризисный период - это аномалия, а не новая норма. Решение о том, включать ли их в обучение, лучше принять позже, когда будет больше ясности.
Главный вывод
Аналитика данных в кризис не перестаёт быть полезной. Но она требует большей осторожности в интерпретации. Вопрос "что происходит сейчас" важнее, чем "что модель предсказала". И сейчас - не лучшее время автоматически доверять алгоритмам там, где раньше доверяли.