2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 RL: сходимость SARSA
Сообщение29.08.2023, 17:18 


29/08/23
1
Добрый день!
Пытаюсь разобраться в сходимости алгоритма SARSA, но мне нужна помощь. В статье Jakkola, Jordana и Singh (1993) "On the Convergence of Stochastic Iterative Dynamic Programming" даны следующие условия сходимости:
1) ограниченность множеств состояний и действий
2) Ограниченность дисперсии наград за действия
3) Параметр скорости обучения (альфа) такой, что ряд из него расходится, а ряд из квадратов альф сходится

И вот с третьим условием недопонимание: во многих примерах альфу берут постоянной, но тогда ряд из квадратов разойдётся. Почему можно брать альфу постоянной? Будет ли тогда функция ценности сходится к оптимальной?

Заранее благодарю за помощь

 Профиль  
                  
 
 Re: RL: сходимость SARSA
Сообщение29.08.2023, 18:19 
Заслуженный участник
Аватара пользователя


16/07/14
8615
Цюрих
Теоретического обоснования, что можно брать learning rate постоянным, вроде бы нет. На практике так хорошо работает, особенно для сильно нестационарных задач.

 Профиль  
                  
 
 Re: RL: сходимость SARSA
Сообщение29.08.2023, 19:34 
Заслуженный участник
Аватара пользователя


30/01/09
6743
user_ в сообщении #1607084 писал(а):
Почему можно брать альфу постоянной? Будет ли тогда функция ценности сходится к оптимальной?

Я думаю, что так вы попадёте в какую-то окрестность оптимума и будете там вокруг него колебаться туда-сюда. Возможно это не страшно, ибо в окрестности оптимума целевая функция изменяется слабо.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 3 ] 

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: Cuprum2020


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group