Данные 29 июня 2012 3 мин чтения

Текстовая аналитика без серебряной пули: где реальная ценность в отзывах и заявках

Почему обработка текста начинается не с понимания языка, а с маршрутизации и типизации причин.

Когда заходит разговор об анализе отзывов, писем или клиентских заявок, первый порыв почти всегда одинаковый: "давайте сделаем так, чтобы система понимала, что имеет в виду клиент". Это звучит как правильная цель. На практике она оказывается слишком широкой, чтобы быть полезной.

Понять текст - это не задача. Задача - принять решение на основе текста. И как только смотришь на вещи именно так, становится гораздо яснее, с чего начинать и где заканчивать. Ценность не в сложности машины, а в сокращении времени на принятие решения.

Чем реально занимается текстовая аналитика в компании

Отзывы, письма в поддержку, заявки на обслуживание - это не данные ради данных. За каждым текстом стоит какое-то действие: ответить, передать нужному специалисту, учесть в работе над продуктом, отследить тренд.

Из этого вытекает короткий список задач, где обработка текста даёт измеримый результат:

маршрутизация заявки к нужному отделу или исполнителю;
типизация причины обращения из фиксированного словаря;
выявление срочных или аномальных случаев, которые нужно обработать быстро;
группировка похожих обращений для анализа частоты.

Всё это можно сделать без глубокого "понимания языка". Для этого нужна хорошая разметка, чёткие категории и устойчивая логика классификации.

Где компании обычно теряют время

Самая частая ошибка - начинать с попытки охватить всё. Создаётся система, которая должна выделять темы, определять тональность, распознавать намерения, строить сводки. В результате через три месяца есть красивые графики, которым никто не доверяет, и нет ни одного процесса, который изменился.

Вторая ошибка - считать, что автоматика заменит ручную работу по созданию категорий. Это не так. Если в компании нет внятного словаря причин обращений - никакой алгоритм его не создаст. Он воспроизведёт то, что уже есть в данных, в том числе всю накопившуюся размытость.

Третья ошибка - оценивать систему по "точности на тестовой выборке" вместо того, чтобы смотреть, что поменялось в операционном процессе.

Откуда берётся реальная ценность

Ценность появляется не в момент, когда алгоритм "понял" текст, а в момент, когда на основе этого кто-то принял более быстрое или более правильное решение.

Самый прямой путь к этому - автоматическая маршрутизация. Если заявка попадает к нужному человеку без ручной сортировки, это уже экономит время и снижает число ошибок. Это измеримо, это ощущается, это меняет процесс.

Следующий шаг - типизация причин. Здесь нужно сначала сделать работу руками: взять несколько сотен обращений и разметить их вручную, создав словарь из 10-20 категорий, которые реально используются в принятии решений. Потом автоматизировать. Не наоборот.

Как устроена разметка, которая работает

Хорошая разметочная схема для текстов отвечает на три вопроса:

К какому типу относится это обращение? - не тема в широком смысле, а конкретная операционная категория.
Какое действие требуется? - ответить, передать, зафиксировать, эскалировать.
Есть ли признаки срочности или аномалии? - это флаг, а не оценка.

Категории должны быть взаимно исключающими и исчерпывающими для реальных данных. Проверка простая: если два аналитика размечают один текст независимо и получают разный результат в половине случаев - схема плохая, и никакой алгоритм её не спасёт.

Простой фильтр перед запуском

Перед тем как инвестировать в текстовую аналитику, я обычно проверяю несколько вещей:

Есть ли в компании документированный словарь категорий причин обращений? Если нет - начать с него.
Кто принимает решение на основе текста, и как именно? Если нет ясного ответа - не ясно, что автоматизировать.
Есть ли 500-1000 примеров текстов с правильной разметкой? Если нет - её нужно создать вручную, это основа.
Что изменится в операционном процессе, когда система заработает? Если ответ размытый - цель неправильная.

Текстовая аналитика хорошо работает там, где задача конкретная. Там, где задача звучит как "давайте поймём, что хотят клиенты" - это исследование, а не автоматизация. Исследование тоже полезно, но это другая история.

К списку статей

Контакт

Если эта статья отозвалась - напишите. Я отвечаю лично.

Telegram TenChat MAX