ИИ 6 ноября 2014 3 мин чтения

Рекомендательные системы: что нужно до того, как они заработают

Что на самом деле требуется для запуска рекомендательной системы и почему большинство проектов спотыкаются до того, как добираются до алгоритма.

Рекомендательные системы - одна из самых востребованных категорий ИИ-проектов. Почти каждый e-commerce, контентный сервис или платформа в какой-то момент задаётся вопросом: "почему мы не делаем рекомендации как Amazon или Netflix?"

Вопрос понятный. Но за ним прячется самое сложное: Amazon и Netflix потратили годы на сбор и структурирование данных до того, как рекомендации стали работать. Большинство компаний смотрят на результат и не видят фундамент.

Из чего состоит рекомендация

Рекомендательная система в простейшем виде говорит: "пользователь A похож на пользователя B, а пользователь B купил X - предложим X пользователю A". Или: "этот товар часто берут вместе с этим - предложим оба".

Для этого нужны три вещи: данные о действиях пользователей, данные о товарах или контенте, и достаточная история для выявления паттернов.

Звучит просто. На практике каждый из этих трёх элементов оказывается своим отдельным проектом.

Проблема первая: события не собираются

Рекомендации основаны на поведении. Нужны данные о том, что пользователь смотрел, на что кликнул, что добавил в корзину, что купил, что вернул, что оценил.

В большинстве компаний часть этих данных существует в транзакционных системах, но не в виде пригодном для анализа. Покупки есть в ERP. Просмотры, если вообще пишутся, лежат в сыром логе сервера. Клики не собираются вообще.

Прежде чем строить рекомендации, нужно выстроить сбор событий и накопить историю. Это несколько месяцев минимум.

Проблема вторая: данные о товарах не структурированы

Рекомендации товаров требуют понимания того, что чем является. Категория, атрибуты, связи между позициями - всё это должно быть в системе в пригодном виде.

В реальности каталог часто выглядит иначе: неполные описания, непоследовательные категории, дубли под разными идентификаторами, отсутствие связей между похожими позициями. Алгоритм не будет рекомендовать "похожие товары", если система не знает, что они похожи. Грязная нормативно-справочная информация ломает не только BI - она блокирует любой алгоритм, который зависит от чистых данных о товарах или клиентах.

Проблема третья: мало данных для новых пользователей и товаров

Рекомендации работают на основе истории. Новый пользователь без истории и новый товар без реакций - это "холодный старт". Для компаний с высокой долей новых пользователей или быстро меняющимся ассортиментом это может означать, что рекомендации будут работать хуже именно там, где они больше всего нужны.

Стратегии для холодного старта существуют, но они требуют отдельного проектирования.

Как правильно оценить готовность

Прежде чем двигаться к алгоритму, стоит ответить на несколько вопросов:

Собираем ли мы события поведения пользователей в структурированном виде - и как долго?
Насколько полны и консистентны данные о нашем каталоге товаров или контента?
Какова доля "новых" пользователей и как часто меняется ассортимент?
Что мы будем считать успехом рекомендательной системы - и как это измеряется?
Есть ли у нас инфраструктура для A/B-тестирования, чтобы проверять, работают ли рекомендации?

Рекомендательная система - это не продукт, который покупают и включают. Это процесс, который строится поверх данных. Данные первичны. Что машинное обучение для среднего бизнеса реально требует - и что до сих пор остаётся нереалистичным - полезно изучить до начала любого рекомендательного проекта.

К списку статей

Контакт

Если эта статья отозвалась - напишите. Я отвечаю лично.

Telegram TenChat MAX