ИИ 13 января 2012 3 мин чтения

После Siri: почему голосовой интерфейс важен не только для телефонов

Где голосовое управление может реально помочь - в сервис-деске, полевых работах и доступе к инструкциям - и почему это не про удобство, а про скорость.

Когда Apple выпустила Siri, большинство реакций было примерно одинаковым: "занятная игрушка для телефона". Люди спрашивали прогноз погоды, просили поставить таймер и смеялись над неточными ответами.

Но за этой игрушкой скрывается кое-что серьёзнее - интерфейс, который не требует рук и экрана. И это меняет не только сценарии на телефоне.

Где голос решает реальную проблему

Голосовой интерфейс интересен не там, где удобнее нажать кнопку. Он интересен там, где нажать кнопку невозможно или дорого.

Полевые работники. Техник на объекте, слесарь в машинном отделении, специалист по ремонту оборудования - у них руки заняты, на экран смотреть некогда, а доступ к инструкции или схеме нужен прямо сейчас. Голосовой запрос к базе знаний в этом сценарии - это не удобство, это сокращение времени на решение задачи.

Сервис-деск и поддержка. Большая часть обращений в поддержку - это повторяющиеся вопросы по одним и тем же темам. Голосовой интерфейс, который понимает вопрос и выдаёт ответ по скрипту или базе знаний, снижает нагрузку на операторов без потери качества для простых случаев.

Ввод данных в движении. Менеджер по продажам после встречи, врач после обхода, водитель на маршруте - все они тратят время на то, чтобы потом перенести информацию в систему. Голосовая фиксация прямо в момент события дешевле и точнее отложенного ввода.

Что стоит за технологией

Голосовое распознавание существует не первый год. Но долгое время оно работало плохо: требовало специальной подготовки, плохо справлялось с акцентами и фоновым шумом, не понимало естественную речь.

Ситуация изменилась. Точность распознавания выросла настолько, что для ограниченных предметных областей - конкретных команд, конкретного словаря, конкретного сценария - системы начинают работать достаточно надёжно для промышленного применения.

Siri - это первый широко известный пример того, что голосовой интерфейс общего назначения стал доступным конечному пользователю. Это не значит, что завтра все компании переведут сервис-деск на голос. Это значит, что порог входа снизился достаточно, чтобы начать смотреть на конкретные сценарии серьёзно.

Что нужно, чтобы это работало

Голосовой интерфейс - это не просто микрофон и распознавание. Для промышленного применения нужно несколько вещей.

Ограниченный домен. Системы, которые должны понимать всё подряд, работают хуже систем, настроенных на конкретный словарь и конкретные сценарии. Первые промышленные применения будут узкими - и это правильно.

Структурированная база знаний. Голос - это только ввод. Если за ним нет нормально структурированной базы инструкций, схем или скриптов, отвечать будет нечему. Здесь голосовой проект часто превращается в проект по наведению порядка в документации.

Процесс обработки исключений. Система не поняла вопрос или дала неверный ответ - что дальше? Без чёткого сценария перехода к живому человеку голосовой интерфейс в поддержке создаёт больше проблем, чем решает.

На что смотреть в своей компании

Прежде чем думать о технологии, стоит найти сценарии, где она имеет смысл. Я обычно задаю такие вопросы:

Есть ли у вас процессы, где люди работают без свободных рук и регулярно нуждаются в информации?
Какая доля обращений в вашу поддержку - это повторяющиеся вопросы по стандартным темам?
Где сейчас информация вносится с задержкой - не в момент события, а потом?
Есть ли у вас структурированная база знаний, или информация хранится в головах людей и разрозненных документах?

Если хотя бы на один из этих вопросов ответ - "да, это реальная проблема" - голосовой интерфейс заслуживает пилота. Не как замена всему, а как ответ на конкретную задачу.

К списку статей

Контакт

Если эта статья отозвалась - напишите. Я отвечаю лично.

Telegram TenChat MAX