После AlexNet: машинное зрение перестаёт быть академической темой
Как результаты ImageNet 2012 года меняют разговор о машинном зрении в промышленном контроле качества и безопасности.
В сентябре 2012 года на соревновании ImageNet Large Scale Visual Recognition Challenge произошло то, чего академическое сообщество ждало, но не ожидало так скоро. Команда Джеффри Хинтона из университета Торонто представила сеть, которая снизила ошибку классификации изображений до уровня, принципиально оторвавшегося от всех предыдущих результатов. Разрыв был настолько значительным, что разговор о глубоком обучении в компьютерном зрении резко изменился.
Для академиков это было подтверждением направления. Для людей, которые думают о практическом применении - это сигнал другого рода. Машинное зрение перестаёт быть задачей для исследовательских лабораторий.
Что изменилось технически
Прорыв был не в идее нейросетей - они существовали давно. Прорыв был в сочетании нескольких вещей одновременно: достаточно большие наборы данных, вычислительная мощность GPU, позволяющая обучать глубокие архитектуры за приемлемое время, и ряд архитектурных решений, которые сделали обучение стабильным.
Ключевое следствие: порог входа для создания работающего распознавателя изображений существенно снизился. Раньше для этого требовалась команда специалистов по компьютерному зрению, которые вручную проектировали признаки. Теперь сеть учится находить признаки сама, если у неё есть достаточно размеченных примеров.
Это не значит, что задача стала тривиальной. Но она стала практически достижимой для организаций, у которых нет исследовательских лабораторий.
Где это применимо в ближайшие годы
Наиболее очевидные области - те, где визуальная инспекция уже является частью процесса, но делается руками или остаётся узким местом.
Промышленный контроль качества - классический пример. Проверка поверхностей на дефекты, контроль комплектности сборки, обнаружение отклонений от стандарта - всё это задачи, в которых человеческий глаз устаёт, скорость ограничена, а пропуск брака дорого обходится. Машинное зрение здесь не заменяет человека полностью, но берёт на себя рутинный поток.
Безопасность на производстве - другая область. Контроль ношения средств защиты, обнаружение людей в опасных зонах, фиксация нарушений - это задачи, где постоянное человеческое наблюдение физически невозможно, а видеозапись без анализа не работает.
Сортировка и логистика - ещё одна область, где распознавание объектов и их характеристик ускоряет процесс и снижает ошибки.
Что стоит между лабораторией и промышленным применением
Результаты на тестовых наборах данных и результаты в реальных условиях - это разные вещи. Это важно понимать тем, кто смотрит на академические достижения и думает о внедрении.
В лаборатории изображения чистые, хорошо размеченные, разнообразные. В цеху - другое освещение в зависимости от времени суток и сезона, загрязнения на объективе, непредсказуемые позиции объектов, вибрации оборудования. Система, обученная в лаборатории, может давать неприемлемые результаты в реальных условиях без дополнительной адаптации.
Кроме технических вопросов есть организационные. Кто размечает данные для обучения? Как система дообучается при изменении ассортимента или процесса? Кто отвечает за качество работы системы? Как интегрировать результаты в существующий производственный процесс?
Эти вопросы не менее важны, чем выбор архитектуры.
Как думать об этом сейчас
Для руководителя производства или директора по качеству правильный вопрос сейчас не "работает ли это вообще". После результатов ImageNet ответ на этот вопрос меняется. Правильный вопрос - "для каких наших задач это достаточно зрело, чтобы начать пилот".
Несколько ориентиров:
- Есть ли у нас конкретная задача визуальной инспекции, которую можно чётко сформулировать - что является дефектом, что нормой?
- Можем ли мы собрать достаточно размеченных примеров - сотни или тысячи изображений обоих классов?
- Есть ли у нас возможность контролировать условия съёмки - освещение, позицию камеры?
- Кто будет владельцем системы и кто будет её поддерживать?
- Что произойдёт, если система ошибётся - какова цена ложной тревоги и пропущенного дефекта?
Если на эти вопросы есть ответы - имеет смысл двигаться к пилоту. Если нет - сначала стоит получить ответы.
Технология созревает. Организационная готовность - отдельная работа.