ИИ 19 октября 2015 3 мин чтения

Классификация текста как практический базовый уровень для предприятий

До того как волна глубокого обучения изменила NLP, классическая классификация текста уже решала реальные задачи. Что умеет, где останавливается и как начать.

Сейчас много шума вокруг глубокого обучения и того, что оно сделает с обработкой естественного языка. Шум отчасти оправдан - результаты на бенчмарках впечатляют. Но большинство предприятий не гоняют исследовательские бенчмарки. У них есть конкретные, ограниченные текстовые задачи, которые они сегодня решают правилами на ключевых словах, ручной маршрутизацией или вообще никак.

Для таких задач классическая классификация текста - та, что не требует GPU, пяти инженеров и шести месяцев - по-прежнему остаётся правильной отправной точкой.

Что такое классификация текста

Задача простая: по тексту определить одну из фиксированного набора категорий. Маршрутизация тикетов поддержки. Классификация строк счёта-фактуры. Сортировка электронной почты. Тегирование регуляторных документов. Категоризация жалоб. Распределение отзывов клиентов по группам.

Эти задачи технически решались годами с помощью наивного байеса, логистической регрессии и метода опорных векторов поверх TF-IDF или модели «мешок слов». Это не модно, но работает надёжно, когда набор категорий стабилен и есть несколько сотен размеченных примеров на класс.

Что реально нужно для старта

Честный ответ - меньше, чем большинство ожидает:

размеченный датасет от нескольких сотен до нескольких тысяч примеров;
чёткое определение набора категорий, которое не меняется каждую неделю;
кто-то, умеющий писать на Python или R хотя бы на один день;
способ оценить точность на отложенной тестовой выборке.

Это полный список. Никакой специальной инфраструктуры, никакого GPU, никакой большой команды. Первый рабочий прототип может появиться за неделю, если размеченные данные есть.

Размеченные данные почти всегда являются бутылочным горлышком. Их создание - медленная, ручная работа, требующая, чтобы эксперты в предметной области делали суждения. Именно сюда уходят реальные усилия, а не в модель.

Где это перестаёт работать

Классическая классификация текста становится ненадёжной когда:

категории имеют размытые, перекрывающиеся границы, требующие чтения между строк;
язык очень неформальный, с аббревиатурами или специфичной для домена терминологией, которой нет в обучающих данных;
нужно понимать смысл на уровне нескольких предложений, а не просто ключевые слова внутри них;
набор категорий очень большой (сотни классов) и у многих категорий мало примеров.

В этих ситуациях более сложные подходы - плотные эмбеддинги, последовательные модели, предобученные языковые представления - действительно помогают. Но это обновления, которые нужно делать после того, как базовый уровень работает и вы понимаете, где именно он падает. Не с этого начинают.

Ошибка при оценке, которой стоит избежать

Самая распространённая ошибка в проектах по классификации текста на предприятиях - оценивать только общую точность. Модель, правильно классифицирующая 94% тикетов, звучит хорошо, пока не замечаешь, что 5% тикетов одной конкретной категории - скажем, срочных эскалаций - попадают не в ту очередь, а это именно те тикеты, которые важны больше всего.

Всегда смотрите на точность и полноту по каждому классу. Особое внимание уделяйте классам, где ошибка стоит дорого. При необходимости настраивайте порог классификации для высокоставочных классов отдельно.

Практическая рекомендация

Если у вас сегодня есть задача маршрутизации или категоризации текста, которая решается вручную или правилами на ключевых словах, правильные шаги:

Потратить две-три недели на создание размеченного датасета с участием экспертов в предметной области.
Обучить классификатор на основе логистической регрессии или градиентного бустинга на TF-IDF-признаках.
Оценить результат по каждому классу, определить режимы ошибок и решить, приемлемы ли они или нужен более сложный подход.

В большинстве случаев третий шаг покажет, что базовый уровень достаточно хорош для большинства классов, а оставшиеся ошибки - в неоднозначных случаях, по которым даже люди расходятся во мнениях. Это полезный результат, а не провал.

Глубокое обучение изменит то, что возможно в NLP. Но оно не делает базовый уровень устаревшим. Оно делает его быстрее строить и надёжнее разворачивать.

К списку статей

Контакт

Если эта статья отозвалась - напишите. Я отвечаю лично.

Telegram TenChat MAX