Даны точные функции поведения динамической системы со случайной ошибкой - error term в каждой функции. Управлять можно только одной переменной

, от которой зависят все данные функции. В каждом периоде

при воздействии на переменную

, получается какой-то выигрыш

,
![$t\in[0,T]$ $t\in[0,T]$](https://dxdy-02.korotkov.co.uk/f/9/4/2/942ffe19fab082a390c6f03dfb19d09382.png)
. Обозначим

, где

, допустим

распределены одинаково. Нужно получить оптимальную динамическую стратегию управления переменной

, чтобы максимизировать выигрыш

. Как изменится ответ, если X - вектор?
Думаю можно для начала предположить, что функция одна

и линейно зависит от X, то есть

и

линейно зависит от

, тогда имеем линейную регрессию. Допустим

, тогда выбираем первые несколько раз наугад, затем оцениваем коэффициенты на каждом шаге и определяем какой

использовать.
Если функций больше и зависимости линейные, то

можно представить в виде

, где

. Таким образом снова имеем линейную регрессию.
Если функции

нелинейные, но

линейно зависит от них, то имеем

. В данном случае палагаю нужно использовать алгоритмы ML, затрудняюсь сказать какие.
Если

нелинейно зависит от функций и функции нелинейно зависят от

, то наверное тоже нужно использовать ML.
Верно ли изложил подход, подскажите, пожалуйста?