2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 RL: сходимость SARSA
Сообщение29.08.2023, 17:18 


29/08/23
1
Добрый день!
Пытаюсь разобраться в сходимости алгоритма SARSA, но мне нужна помощь. В статье Jakkola, Jordana и Singh (1993) "On the Convergence of Stochastic Iterative Dynamic Programming" даны следующие условия сходимости:
1) ограниченность множеств состояний и действий
2) Ограниченность дисперсии наград за действия
3) Параметр скорости обучения (альфа) такой, что ряд из него расходится, а ряд из квадратов альф сходится

И вот с третьим условием недопонимание: во многих примерах альфу берут постоянной, но тогда ряд из квадратов разойдётся. Почему можно брать альфу постоянной? Будет ли тогда функция ценности сходится к оптимальной?

Заранее благодарю за помощь

 Профиль  
                  
 
 Re: RL: сходимость SARSA
Сообщение29.08.2023, 18:19 
Заслуженный участник
Аватара пользователя


16/07/14
9234
Цюрих
Теоретического обоснования, что можно брать learning rate постоянным, вроде бы нет. На практике так хорошо работает, особенно для сильно нестационарных задач.

 Профиль  
                  
 
 Re: RL: сходимость SARSA
Сообщение29.08.2023, 19:34 
Заслуженный участник
Аватара пользователя


30/01/09
7143
user_ в сообщении #1607084 писал(а):
Почему можно брать альфу постоянной? Будет ли тогда функция ценности сходится к оптимальной?

Я думаю, что так вы попадёте в какую-то окрестность оптимума и будете там вокруг него колебаться туда-сюда. Возможно это не страшно, ибо в окрестности оптимума целевая функция изменяется слабо.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 3 ] 

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group