RL: сходимость SARSA

user_ · 29.08.2023, 17:18

Добрый день!
Пытаюсь разобраться в сходимости алгоритма SARSA, но мне нужна помощь. В статье Jakkola, Jordana и Singh (1993) "On the Convergence of Stochastic Iterative Dynamic Programming" даны следующие условия сходимости:
1) ограниченность множеств состояний и действий
2) Ограниченность дисперсии наград за действия
3) Параметр скорости обучения (альфа) такой, что ряд из него расходится, а ряд из квадратов альф сходится

И вот с третьим условием недопонимание: во многих примерах альфу берут постоянной, но тогда ряд из квадратов разойдётся. Почему можно брать альфу постоянной? Будет ли тогда функция ценности сходится к оптимальной?

Заранее благодарю за помощь

mihaild · 29.08.2023, 18:19

Теоретического обоснования, что можно брать learning rate постоянным, вроде бы нет. На практике так хорошо работает, особенно для сильно нестационарных задач.

мат-ламер · 29.08.2023, 19:34

user_ в сообщении #1607084 писал(а):

Почему можно брать альфу постоянной? Будет ли тогда функция ценности сходится к оптимальной?

Я думаю, что так вы попадёте в какую-то окрестность оптимума и будете там вокруг него колебаться туда-сюда. Возможно это не страшно, ибо в окрестности оптимума целевая функция изменяется слабо.

Научный форум dxdy

RL: сходимость SARSA