Reinforcement learning работает?

spyphy · 11/04/08 632 Марс

Наслышан об успехах RL в шахматы, Го и игры Atari. Но вот беда, как пытаешься на своей задаче обучить - ничего не работает! В интернете сплош и рядом приводятся примеры, как они обучали свой алгоритм для CartPole, ну вот например https://pytorch.org/tutorials/intermedi ... rning.html но тут вообще всего 2 действия и фактически один параметр - угол наклона. А мне надо рабочую реализацию хотя бы для Go или Atari.

Опишу свою задачу (абстрактно и упрощенно). Допустим есть три кнопки, расположенные в ряд. Задача алгоритма - нажать на все кнопки поочередно.
observation выглядит так:
[1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0]
первые 15 чисел кодируют кнопки (1 означает "ненажатая кнопка"), остальные 15 чисел - внутреннее состояние агента, показывают на какую кнопку установлен курсор.
Всего 3 действия: 0 - поместить курсор на первую кнопку, 1 - сместить курсор вправо на следующую кнопку, 2 - нажать кнопку, на которую установлен курсор.
(при попытке смести курсор правее 3-ей кнопки, срабатывать не будет, но это не суть важно).
Если все три кнопки нажаты, то приписывается некое вознаграждение, и конец игры. А также конец игры, если больше 100 ходов, но без вознаграждения
Итого задача алгоритма просто-напросто сгенерировать последовательность действий: 021212. Но это в идеале. У меня получается результат примерно такой же, как при рандомном переборе действий. Где-то 10-40 итераций. Бывает, что и за 6 справляет, бытает и 100, но это редко. Это было на основе нейросети Deep Q-Network (DQN). Пытался еще muzero обучать, но там и того хуже получает (хуже, чем при рандомном выборе).

Как-то так. Может у кого-то получалось обучать RL для чего-нибудь, кроме CartPole?

Mihaylo · 12/07/15 3648 г. Чехов

Вы пытаетесь обучить машину понятию "приращение", то бишь интегрированию, а это динамическая операция. Вы нейронные сети устанете этому обучать. Сами-то во сколько лет поняли, что такое интегрирование? ;)

ShMaxG · 11/04/08 2756 Физтех

spyphy
Не вчитывался в Вашу ситуацию, но имея некоторый опыт обучения с подкреплением могу сказать, что даже когда все правильно реализовано -- методы обучения с подкреплением сходятся очень медленно, и это очень естественно для этого класса методов. Кривые обучения -- стохастические, то есть при каждом новом запуске кривая обучения получается разной. И для того, чтобы действительно оценить свойства применяемого метода, следует запустить его с нуля сотни, а то и тысячи раз, и получить усредненную кривую обучения. Отмечу еще, что в обучении с подкреплением особенно важным является способ задания вознаграждения. Иногда приходится функцию вознаграждения вводить довольно искусственно и криво, зато метод работает. Я встречался с ситуациями, когда неудачно выбранная функция вознаграждения приводила к тому, что обучение с подкреплением не давало никаких преимуществ перед "рандомным перебором действий".

А вообще, трудности, с которыми Вы столкнулись, вполне нормальные. Большую часть времени обучатели тратят не на то, чтобы известный алгоритм обучения применить, а чтобы удачным образом подогнать условия установки эпизода, функцию вознаграждения, параметры нейронных сетей, гиперпараметры метода обучения, и посчитать много-много итераций метода с многими перезапусками обучения. Иногда над всеми этими свободными параметрами, которые обучатели подгоняют, формируют целую оптимизационную задачу, которая тоже решается численно.

spyphy · 11/04/08 632 Марс

Mihaylo в сообщении #1487502 писал(а):

Вы пытаетесь обучить машину понятию "приращение", то бишь интегрированию, а это динамическая операция. Вы нейронные сети устанете этому обучать. Сами-то во сколько лет поняли, что такое интегрирование? ;)

Вот я уверен, что при 1000-ой попытке с это задачей справились бы даже макаки. Но будет ли это доказательством того, что они умеют брать интегралы?

Mihaylo · 12/07/15 3648 г. Чехов

Подсказка: ну вы так взяли с потолка 1000 попыток, но может 1000000? Вы по формулам комбинаторики посчитайте...

В вашей задаче выход исследуемого объекта зависит от предыдущего состояния, это намекает на включение предыдущего состояния в текущий обучающий пример, то есть добавьте туда ещё 15 элементов. Даже RNN не требуется, хотя такое приходит в голову.

Если вы не сделаете так, то ваш интеллект вынужден искать закономерности в огромнейшем пространстве, где этих закономерностей всего, грубо говоря, 15. Я не говорю о той нелинейности получения вознаграждения, которое приводит к сильнейшей несбалансированности датасетов (unbalanced datasets).

Не пытайтесь использовать RL в сложных задачах, эти методы никогда там не будут работать хорошо.

spyphy · 11/04/08 632 Марс

Mihaylo в сообщении #1487647 писал(а):

Не пытайтесь использовать RL в сложных задачах, эти методы никогда там не будут работать хорошо.

а что насчет го и шахмат, или они считаются недостаточно сложными?

Mihaylo в сообщении #1487647 писал(а):

ну вы так взяли с потолка 1000 попыток, но может 1000000?

Я наблюдаю за процессом обучения (какой reward и за сколько шагов достигается цель). И каких-то улучшений не замечаю с течением времени.

Mihaylo в сообщении #1487647 писал(а):

это намекает на включение предыдущего состояния в текущий обучающий пример, то есть добавьте туда ещё 15 элементов

ок, попробую

Mihaylo · 12/07/15 3648 г. Чехов

Вы еще с небалансированным датасетом поборитесь.
Суть проблемы: у вас вознаграждение почти всегда 0, и очень-очень редко вознаграждение присутствует.
Так как у вас датасет синтетический, то нагенерируйте примеров побольше, а потом выбросьте случайным образом избыток примеров без вознаграждения, чтобы было 50/50 (без вознаграждения/с вознаграждением).

И что-то еще не продумано в вашем подходе. Может вознаграждением считать величину, обратную числу шагов к успеху в данной партии?

spyphy · 11/04/08 632 Марс

Mihaylo в сообщении #1487686 писал(а):

И что-то еще не продумано в вашем подходе. Может вознаграждением считать величину, обратную числу шагов к успеху в данной партии?

Про это не сказал, но именно так и считаю, то есть

Код:

reward = 1 - 0.9*(step_count / MAX_STEPS)

(MAXSTEPS = 100)

А что за датасет? У меня начальные условия всегда одни и те же: три кнопки, которые нужно нажать (можно в произвольном порядке нажимать). Почти всегда цель достигается, только количество шагов разное (и пока большое).
Да, нет промежуточного вознаграждения, но в этом и суть эксперимента. Изначально планировать использовать muzero, но то совсем не зашло. Поэтому начал с чего попроще - DQN.

spyphy · 11/04/08 632 Марс

Стал измерять среднее значение необходимых шагов за последние 100 итераций (игр). Так можно более-менее оценить успешность модели.
Получается, что при рандомных значения action количество шагов в среднем составляет 24-25.
А при использовании нейросети сначала это значение составляет 30, а при обучении уменьшается до 24-25, что эквивалентно рандомному выбору.
Лучше работает модель, если кроме конечного вознаграждения, задавать также промежуточное вознаграждение за успешное нажание на кпонку. В этом случае среднее количество шагов уменьшается до 10 (требуется около 200 итераций), а после чего начинает увеличивать опять до 24-25. Это получается переобучение что ли?

Может дело в нейронке? Она сейчас маленькая: используется только 2 полносвязных слоя по 16 нейронов. В играх Atari использовали сверточные сети. Но у меня вроде и задача попроще (не так много пикселей).

Mihaylo · 12/07/15 3648 г. Чехов

Постройте гистограмму, показывающую распределение вознаграждений. (Это я к тому, что вы должны понять важное про небаланс классов или небаланс датасетов.)

Когда вы обучили алгоритм на 1 млн. примеров и 990 тысяч раз втюхали алгоритму примеры с нулевым вознаграждением, то он понял просто: "Что не делай - все равно получишь шиш!". Поэтому результаты близки к тому, если бы выбор делался случайно.

spyphy · 11/04/08 632 Марс

ок, вроде начала догонять, о чем вы. То есть надо обновлять веса нейросети не после каждой игры, а пропускать часть их них, где reward=0.

Но похоже основная проблема была в другом - в абсолютном значении reward. Я думал, это никак не влияет. Но оказывается, если задать побольше, то результат намного лучше. То есть сейчас считаю его по такой формуле:

Код:

reward = 100*(1 - 0.9*(step_count / MAX_STEPS))

и так работает, по крайней мере для DQN. Буду пробывать для других сетей.

Научный форум dxdy

Reinforcement learning работает?

Кто сейчас на конференции