ИИ 22 мая 2014 3 мин чтения

Обработка текста становится практичной: что это значит для бизнеса

Инструменты анализа и обработки текста добрались до уровня, когда ими можно пользоваться без исследовательской лаборатории. Что с этим делать.

Несколько лет назад анализ текста в промышленных масштабах был задачей для исследовательских лабораторий и крупных технологических компаний. Инструменты существовали, но требовали специализированных знаний и значительных вычислительных ресурсов.

В 2014 году картина другая. Библиотеки для обработки естественного языка стали значительно доступнее. Появились инструменты, с которыми может работать аналитик без лингвистического образования. Облачные вычисления убрали барьер производительности. Для бизнеса это означает: задачи, которые раньше требовали специалиста-исследователя, теперь могут решать команды с обычными техническими ресурсами.

Что умеют инструменты анализа текста сейчас

Без преувеличений: несколько классов задач решаются достаточно надёжно.

Классификация текста. Автоматическое распределение обращений, тикетов или отзывов по категориям - работает хорошо при наличии достаточного количества примеров для обучения. Сократить время первичной обработки потока входящих сообщений реально.

Извлечение информации. Из неструктурированного текста можно выделять конкретные сущности: названия организаций, даты, суммы, адреса. Полезно там, где есть поток документов или сообщений, из которых нужно извлекать данные.

Анализ тональности. Определение "позитивно/негативно/нейтрально" в отзывах, обращениях, комментариях - задача, которая решается с приемлемой точностью для большинства бизнес-случаев.

Поиск по смыслу. Задачи, где нужно найти похожие документы или группировать тексты по смыслу без заранее заданных категорий - сдвиг, который word2vec сделал практичным для прикладного поиска.

Где это не работает

Тонкие нюансы языка, сарказм, специфический профессиональный жаргон, короткие тексты без контекста - всё это снижает качество. Системы, обученные на одном домене, плохо переносятся на другой без переобучения.

Русскоязычные тексты исторически обрабатываются хуже, чем английские, - просто потому что большинство инструментов разрабатывались и оптимизировались на английском. Это не приговор, но это реальное ограничение, которое нужно проверять на конкретных данных.

Три практических сценария для бизнеса

Первый: автоматическая маршрутизация обращений. Если у вас есть колл-центр или служба поддержки, где обращения разбираются вручную и распределяются по операторам - автоматическая классификация может взять на себя первичную сортировку. Не заменить оператора, а убрать у него механическую работу.

Второй: мониторинг упоминаний и отзывов. Автоматический сбор и первичная оценка тональности отзывов о компании или продуктах - при больших объёмах это экономит аналитическое время.

Третий: структурирование входящих документов. Если ваш бизнес работает с потоком неструктурированных документов - заявок, писем, отчётов - и часть работы состоит в том, чтобы вытащить из них конкретные данные, автоматизация этого шага реальна.

Как оценить готовность задачи

Прежде чем вкладывать ресурсы, стоит проверить несколько вещей.

Есть ли у вас достаточный объём текстов для обучения или тестирования? Если нет - результаты будут ненадёжными, и сначала нужно накопить данные.

Можно ли сформулировать задачу чётко: что именно должна определять или извлекать система? Размытые задачи дают размытые результаты.

Готовы ли вы к тому, что система будет ошибаться в части случаев, и есть ли у вас механизм проверки и обратной связи? Без этого качество не улучшится со временем.

Если ответы положительные - задача, скорее всего, решаема с разумными усилиями. Если нет - начинать надо с прояснения исходных условий.

К списку статей

Контакт

Если эта статья отозвалась - напишите. Я отвечаю лично.

Telegram TenChat MAX