2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 RL: сходимость SARSA
Сообщение29.08.2023, 17:18 
Добрый день!
Пытаюсь разобраться в сходимости алгоритма SARSA, но мне нужна помощь. В статье Jakkola, Jordana и Singh (1993) "On the Convergence of Stochastic Iterative Dynamic Programming" даны следующие условия сходимости:
1) ограниченность множеств состояний и действий
2) Ограниченность дисперсии наград за действия
3) Параметр скорости обучения (альфа) такой, что ряд из него расходится, а ряд из квадратов альф сходится

И вот с третьим условием недопонимание: во многих примерах альфу берут постоянной, но тогда ряд из квадратов разойдётся. Почему можно брать альфу постоянной? Будет ли тогда функция ценности сходится к оптимальной?

Заранее благодарю за помощь

 
 
 
 Re: RL: сходимость SARSA
Сообщение29.08.2023, 18:19 
Аватара пользователя
Теоретического обоснования, что можно брать learning rate постоянным, вроде бы нет. На практике так хорошо работает, особенно для сильно нестационарных задач.

 
 
 
 Re: RL: сходимость SARSA
Сообщение29.08.2023, 19:34 
Аватара пользователя
user_ в сообщении #1607084 писал(а):
Почему можно брать альфу постоянной? Будет ли тогда функция ценности сходится к оптимальной?

Я думаю, что так вы попадёте в какую-то окрестность оптимума и будете там вокруг него колебаться туда-сюда. Возможно это не страшно, ибо в окрестности оптимума целевая функция изменяется слабо.

 
 
 [ Сообщений: 3 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group