ИИ 21 октября 2021 3 мин чтения

Разрыв между экспериментом и продакшном: почему ML-модели не добираются до работы

Большинство ML-проектов дают хорошие результаты в эксперименте и плохо работают в производственной среде. Разбираю, почему это происходит.

Есть распространённый сценарий в компаниях, которые начинают работать с машинным обучением. Команда данных строит модель, которая хорошо работает на тестовых данных. Все довольны. Затем начинается внедрение в реальную среду - и что-то идёт не так. Модель работает медленнее, чем нужно. Или деградирует со временем. Или её сложно обновлять. Или никто не понимает, что она выдаёт, когда получает нестандартный ввод.

Этот разрыв между экспериментом и продакшном - одна из главных причин, по которым ML-проекты не дают ожидаемой ценности. И он почти всегда был предсказуем.

Почему эксперимент и продакшн - разные задачи

В эксперименте задача - добиться максимального качества предсказания на данном наборе данных. Это статическая задача: данные зафиксированы, метрика понятна, результат воспроизводим.

В продакшне задача другая: модель должна работать непрерывно, на живых данных, которые меняются со временем, в интеграции с другими системами, под нагрузкой, с мониторингом качества и с возможностью обновления без остановки сервиса.

Это разные инженерные задачи. Первая требует науки о данных. Вторая - инженерии производственных систем. Долгое время эти две компетенции существовали порознь, и именно этот разрыв дал начало дисциплине MLOps.

Что конкретно ломается

Несколько типичных проблем, которые я наблюдаю при переходе из эксперимента в продакшн.

Дрейф данных. Данные, на которых обучалась модель, отличаются от данных, которые она получает в реальной среде. Сезонность, изменения поведения пользователей, новые категории товаров - всё это делает модель менее точной со временем без переобучения.

Отсутствие мониторинга. В эксперименте качество модели известно на тестовой выборке. В продакшне нет автоматической системы, которая сигнализирует, когда модель начала ошибаться чаще. Деградация замечается случайно или не замечается вовсе.

Воспроизводимость. Эксперимент сложно воспроизвести: разные версии библиотек, данные из разных источников, нет фиксации параметров. Обновить модель или откатить версию становится рискованной операцией.

Интеграция с системами. Модель существует отдельно от бизнес-системы, которая должна её использовать. Интеграция написана наспех, не обрабатывает ошибки, нет логирования запросов и ответов.

Что это значит для руководителя

MLOps - это не дополнительные расходы. Это условие того, чтобы ML вообще работал в продакшне.

Несколько вопросов, которые стоит задать команде перед тем, как ML-проект переходит из эксперимента в планируемое внедрение:

Как мы будем знать, что качество модели не ухудшилось через месяц? Через полгода?
Как будет устроено обновление модели - кто, как часто, по какому триггеру?
Что происходит, когда модель получает данные, которые сильно отличаются от того, на чём обучалась?
Как интеграция с бизнес-системой обрабатывает сбои модели - есть ли fallback?
Кто является владельцем модели в продакшне и кто звонит первым, когда что-то идёт не так?

Если ответов нет - проект ещё не готов к внедрению. Хороший эксперимент - это начало, а не результат.

Разрыв между экспериментом и продакшном сокращается с каждым годом - инструменты становятся лучше, практики устоялись. Но сам разрыв никуда не делся. Его нужно планировать и закладывать в проект с самого начала.

К списку статей

Контакт

Если эта статья отозвалась - напишите. Я отвечаю лично.

Telegram TenChat MAX