ИИ 27 июня 2019 3 мин чтения

AutoML: что это такое и чего от него не стоит ожидать руководителю

Как AutoML-инструменты меняют порог входа в машинное обучение - и где они всё равно требуют экспертизы и управленческих решений.

В последние годы появился класс инструментов, которые обещают автоматизировать значительную часть работы по созданию ML-моделей. AutoML - автоматическое машинное обучение - берёт на себя выбор алгоритма, подбор гиперпараметров, иногда инженерию признаков. Звучит как то, что снижает зависимость от редких и дорогих специалистов.

Это отчасти правда. Но между "снижает зависимость от специалиста" и "не требует специалиста вообще" - большая разница. И именно в этой разнице рождаются разочарования.

Что AutoML действительно делает

AutoML автоматизирует техническую часть эксперимента. Он может за несколько часов перебрать десятки конфигураций моделей, найти ту, которая лучше работает на имеющихся данных по заданной метрике, и вернуть результат в понятном виде.

Это реально снижает время от данных до первой рабочей модели. Задача, которая раньше занимала недели итераций у специалиста, теперь может занять дни или часы машинного времени.

Для компаний, у которых нет сложившейся ML-команды, это способ быстро проверить: а вообще возможно ли решить эту задачу на имеющихся данных? Это ценный вопрос, и AutoML отвечает на него дешевле, чем наём специалиста.

Что AutoML не делает

AutoML не формулирует задачу. Это всегда остаётся за человеком: что именно предсказывать, какая метрика качества важна, на каких данных обучать, что считать успехом.

AutoML не решает проблемы с данными. Если данные некорректные, несбалансированные, с утечкой целевой переменной - AutoML найдёт модель, которая хорошо работает на тестовом наборе и плохо в реальности. Это классическая проблема: алгоритм оптимизирует то, что ему сказали, а не то, что нужно бизнесу.

AutoML не управляет моделью в продуктиве. Мониторинг качества, переобучение при деградации, версионирование, объяснимость результатов - всё это остаётся ручной работой или требует отдельной инфраструктуры.

AutoML не гарантирует воспроизводимость. Если процесс не задокументирован, а данные не зафиксированы, воспроизвести результат через полгода может быть невозможно. Это критично для регулируемых отраслей и для любых задач, где модель принимает важные решения.

Где AutoML имеет смысл

Прototипирование и проверка гипотез. Прежде чем инвестировать в полноценный ML-проект, AutoML помогает ответить: есть ли вообще сигнал в данных? Можно ли предсказать X на основе Y?

Задачи стандартного класса на структурированных данных. Классификация, регрессия, прогнозирование временных рядов на табличных данных - это зона, где AutoML работает достаточно хорошо.

Когда нет специалиста, но есть чёткая задача и хорошие данные. Это сочетание редкое, но оно существует.

Вопросы перед запуском AutoML-проекта

Кто формулирует задачу и метрику качества - и есть ли у этого человека понимание предметной области?
Как оцениваем качество данных до запуска автоматического поиска?
Кто будет владельцем модели в продуктиве - кто следит за её качеством после запуска?
Как объясним результат модели, если нужно будет обосновать решение?
Что происходит с моделью через год - есть ли план переобучения?

AutoML - это инструмент, который снижает технический барьер входа. Он не снижает управленческую и предметную ответственность. Этот инструмент в руках команды с пониманием задачи - ускоритель. Без этого понимания - источник уверенных, но бесполезных результатов.

К списку статей

Контакт

Если эта статья отозвалась - напишите. Я отвечаю лично.

Telegram TenChat MAX