Обработка текста становится практичной: что это значит для бизнеса
Инструменты анализа и обработки текста добрались до уровня, когда ими можно пользоваться без исследовательской лаборатории. Что с этим делать.
Несколько лет назад анализ текста в промышленных масштабах был задачей для исследовательских лабораторий и крупных технологических компаний. Инструменты существовали, но требовали специализированных знаний и значительных вычислительных ресурсов.
В 2014 году картина другая. Библиотеки для обработки естественного языка стали значительно доступнее. Появились инструменты, с которыми может работать аналитик без лингвистического образования. Облачные вычисления убрали барьер производительности. Для бизнеса это означает: задачи, которые раньше требовали специалиста-исследователя, теперь могут решать команды с обычными техническими ресурсами.
Что умеют инструменты анализа текста сейчас
Без преувеличений: несколько классов задач решаются достаточно надёжно.
Классификация текста. Автоматическое распределение обращений, тикетов или отзывов по категориям - работает хорошо при наличии достаточного количества примеров для обучения. Сократить время первичной обработки потока входящих сообщений реально.
Извлечение информации. Из неструктурированного текста можно выделять конкретные сущности: названия организаций, даты, суммы, адреса. Полезно там, где есть поток документов или сообщений, из которых нужно извлекать данные.
Анализ тональности. Определение "позитивно/негативно/нейтрально" в отзывах, обращениях, комментариях - задача, которая решается с приемлемой точностью для большинства бизнес-случаев.
Поиск по смыслу. Задачи, где нужно найти похожие документы или группировать тексты по смыслу без заранее заданных категорий - сдвиг, который word2vec сделал практичным для прикладного поиска.
Где это не работает
Тонкие нюансы языка, сарказм, специфический профессиональный жаргон, короткие тексты без контекста - всё это снижает качество. Системы, обученные на одном домене, плохо переносятся на другой без переобучения.
Русскоязычные тексты исторически обрабатываются хуже, чем английские, - просто потому что большинство инструментов разрабатывались и оптимизировались на английском. Это не приговор, но это реальное ограничение, которое нужно проверять на конкретных данных.
Три практических сценария для бизнеса
Первый: автоматическая маршрутизация обращений. Если у вас есть колл-центр или служба поддержки, где обращения разбираются вручную и распределяются по операторам - автоматическая классификация может взять на себя первичную сортировку. Не заменить оператора, а убрать у него механическую работу.
Второй: мониторинг упоминаний и отзывов. Автоматический сбор и первичная оценка тональности отзывов о компании или продуктах - при больших объёмах это экономит аналитическое время.
Третий: структурирование входящих документов. Если ваш бизнес работает с потоком неструктурированных документов - заявок, писем, отчётов - и часть работы состоит в том, чтобы вытащить из них конкретные данные, автоматизация этого шага реальна.
Как оценить готовность задачи
Прежде чем вкладывать ресурсы, стоит проверить несколько вещей.
Есть ли у вас достаточный объём текстов для обучения или тестирования? Если нет - результаты будут ненадёжными, и сначала нужно накопить данные.
Можно ли сформулировать задачу чётко: что именно должна определять или извлекать система? Размытые задачи дают размытые результаты.
Готовы ли вы к тому, что система будет ошибаться в части случаев, и есть ли у вас механизм проверки и обратной связи? Без этого качество не улучшится со временем.
Если ответы положительные - задача, скорее всего, решаема с разумными усилиями. Если нет - начинать надо с прояснения исходных условий.