ИИ 8 апреля 2019 3 мин чтения

Реальная стоимость NLP-пайплайна до того, как вы купились на демо

Что на самом деле требует поддержки в промышленной NLP-системе - от разметки данных до контроля качества в продуктиве.

Демонстрация NLP-системы выглядит убедительно. Модель читает текст, находит сущности, классифицирует, отвечает на вопросы. Кажется, что основная часть работы - алгоритм - уже решена, осталось подключить к своим данным и запустить.

Именно в этот момент большинство оценок стоимости расходятся с реальностью в три-пять раз.

Я не говорю о плохих поставщиках или наивных заказчиках. Я говорю о систематическом недооценивании того, что стоит за производственной NLP-системой.

Что не входит в демо

Демо показывает модель на подготовленных примерах. За кадром остаётся несколько вещей.

Разметка данных. Для обучения и оценки качества нужны примеры, размеченные людьми. Чем специфичнее домен - юридические тексты, медицинские документы, внутренняя терминология - тем сложнее и дороже разметка. Это не разовая задача: при изменении требований или появлении новых паттернов разметку надо обновлять.

Предобработка. Реальные тексты приходят в разных форматах, с опечатками, нестандартными аббревиатурами, смешением языков. Чистка и нормализация - это отдельный слой работы, который часто занимает больше времени, чем сама модель.

Управление версиями модели. Когда модель обновляется, нужно контролировать, что новая версия не хуже старой на важных для бизнеса категориях. Это требует тестовых наборов и процедур оценки - постоянных, не разовых.

Мониторинг качества в продуктиве. Тексты, которые приходят в реальности, отличаются от тех, на которых обучалась модель. Это называется data drift. Без мониторинга вы можете не заметить, что качество упало - иногда на несколько недель.

Архитектура пайплайна, а не только модель

Модель - это один компонент. Производственный NLP-пайплайн обычно включает:

входной препроцессор: приём текста, нормализация, разбивка на нужные единицы;
само ядро модели с управлением версиями;
постпроцессор: перевод вывода модели в бизнес-объекты;
логирование: фиксация входов и выходов для последующего анализа;
мониторинг: контроль задержки, пропускной способности и качества;
процесс обновления: кто, когда и как обновляет модель при деградации качества.

Каждый из этих компонентов требует разработки, тестирования и поддержки. Стоимость их сопровождения часто превышает стоимость первоначальной разработки модели.

Когда NLP имеет смысл, а когда нет

NLP имеет смысл, когда задача масштабируется - сотни или тысячи документов в день, и ручная обработка либо невозможна, либо экономически неоправданна. Если объём небольшой - часто проще и дешевле хорошо организованный ручной процесс.

NLP имеет смысл, когда требования к точности измеримы и приемлемы. Если 15% ошибок - катастрофа, нужно понимать, достижим ли нужный порог для конкретной задачи. Не "работает ли NLP вообще", а "достигает ли нужного качества именно на ваших данных".

NLP требует долгосрочной поддержки. Если в компании нет человека или команды, готовых поддерживать пайплайн - включая обновление разметки и мониторинг качества - это надо учитывать в экономике проекта с самого начала.

Вопросы до начала проекта

Откуда возьмётся размеченный обучающий набор и кто будет его обновлять?
Что считается успехом - какие метрики качества, на каком тестовом наборе?
Кто будет владельцем пайплайна в продуктиве?
Как будет обнаруживаться деградация качества?
Какова экономика: сколько стоит поддержка пайплайна в год относительно ценности, которую он создаёт?

Если ответов нет - ценность демо правильно понимать как ценность демо, а не как ценность производственной системы.

К списку статей

Контакт

Если эта статья отозвалась - напишите. Я отвечаю лично.

Telegram TenChat MAX