Даны точные функции поведения динамической системы со случайной ошибкой - error term в каждой функции. Управлять можно только одной переменной
, от которой зависят все данные функции. В каждом периоде
при воздействии на переменную
, получается какой-то выигрыш
,
. Обозначим
, где
, допустим
распределены одинаково. Нужно получить оптимальную динамическую стратегию управления переменной
, чтобы максимизировать выигрыш
. Как изменится ответ, если X - вектор?
Думаю можно для начала предположить, что функция одна
и линейно зависит от X, то есть
и
линейно зависит от
, тогда имеем линейную регрессию. Допустим
, тогда выбираем первые несколько раз наугад, затем оцениваем коэффициенты на каждом шаге и определяем какой
использовать.
Если функций больше и зависимости линейные, то
можно представить в виде
, где
. Таким образом снова имеем линейную регрессию.
Если функции
нелинейные, но
линейно зависит от них, то имеем
. В данном случае палагаю нужно использовать алгоритмы ML, затрудняюсь сказать какие.
Если
нелинейно зависит от функций и функции нелинейно зависят от
, то наверное тоже нужно использовать ML.
Верно ли изложил подход, подскажите, пожалуйста?