ИИ 28 июня 2013 3 мин чтения

Обучение с подкреплением и Atari: не игры, а класс задач

Почему результаты DeepMind с игровой приставкой важны не для развлечений, а как намёк на целый класс оптимизационных задач в бизнесе.

В середине 2013 года команда DeepMind опубликовала результаты, которые быстро превратились в медийный шум про "ИИ, который научился играть в видеоигры". Заголовки про Pong и Breakout. Удобная история для прессы.

Я понимаю, почему так подаётся. Но меня в этой работе интересует другое - не игры, а то, что они здесь являются формальной моделью совершенно иного класса задач.

Что на самом деле делает агент

В основе обучения с подкреплением лежит простая схема: агент наблюдает состояние среды, совершает действие, получает сигнал о качестве этого действия и обновляет свою политику. Никакой разметки, никакого учителя с правильными ответами. Только цикл опыта и коррекции.

В случае с Atari агент получал на вход пиксели экрана и сигнал счёта. Никаких правил игры, никакой встроенной логики. После достаточного числа эпизодов он начинал играть на уровне человека - и в ряде случаев лучше.

Это важно не потому, что игра представляет практическую ценность. Это важно потому, что формально то же самое описывает огромное количество реальных задач.

Какой класс задач это затрагивает

Обучение с подкреплением хорошо подходит там, где:

есть последовательность решений, а не одно изолированное решение;
качество решения оценивается только через время;
полный перебор вариантов невозможен - пространство состояний слишком велико;
среда достаточно стабильна, чтобы опыт из прошлых эпизодов был полезен.

Это описывает управление производственным процессом, ценообразование в конкурентной среде, распределение ресурсов в логистике, управление складскими запасами. Не все эти задачи решаются сегодня обучением с подкреплением в промышленном масштабе - инструменты пока не дозрели. Но принцип уже обозначен.

Почему сигнал отложен - это главная сложность

В игре Atari есть явный числовой счёт. В реальной задаче сигнал обратной связи размыт во времени. Эффект решения о ценообразовании виден через недели. Последствия управленческого решения - через кварталы. Это принципиально усложняет задачу для агента.

Это же является и ограничением для применения. Чем длиннее цикл обратной связи и чем сложнее отделить влияние одного решения от другого - тем труднее обучать агента в реальной среде. Именно поэтому симуляция и исторические данные становятся отдельной темой.

Чем это отличается от классической оптимизации

Классические методы оптимизации требуют явной математической формулировки задачи - целевая функция, ограничения, переменные. Это работает там, где всё это можно задать заранее и где среда предсказуема.

Обучение с подкреплением не требует явной формулировки правил среды. Агент выясняет их опытным путём. Это открывает возможность для задач, в которых полная модель среды либо неизвестна, либо слишком сложна для аналитического описания.

Граница между двумя подходами - не религиозная. В реальных задачах часто используют гибриды: симуляция на основе исторических данных плюс обучение агента в этой симуляции.

Вопросы, которые стоит задать себе сейчас

Если вы управляете процессом с регулярными решениями и оцениваете, насколько подобные методы вам интересны, полезно ответить честно на несколько вопросов:

Есть ли у нас процесс, где решения принимаются регулярно по одной и той же логике?
Есть ли измеримый результат этих решений - пусть с задержкой?
Накоплена ли история решений и их исходов хотя бы за год-два?
Понимаем ли мы, какой результат хотим максимизировать, а что является ограничением?
Есть ли возможность безопасно экспериментировать - то есть цена ошибки агента приемлема?

Если первые четыре пункта выполнены, а пятый требует осторожности - это сигнал думать про симуляцию, а не про прямое применение в боевой среде.

Игры Atari - это не цель. Это удобная лаборатория, где можно изучать методы управления в сложных средах. То, что изучается там, постепенно становится инструментом для вещей, имеющих практическую ценность.

К списку статей

Контакт

Если эта статья отозвалась - напишите. Я отвечаю лично.

Telegram TenChat MAX