Даны точные функции поведения динамической системы со случайной ошибкой - error term в каждой функции. Управлять можно только одной переменной 

, от которой зависят все данные функции. В каждом периоде 

 при воздействии на переменную 

, получается какой-то выигрыш 

, 
![$t\in[0,T]$ $t\in[0,T]$](https://dxdy-02.korotkov.co.uk/f/9/4/2/942ffe19fab082a390c6f03dfb19d09382.png)
. Обозначим 

, где 

, допустим 

 распределены одинаково. Нужно получить оптимальную динамическую стратегию управления переменной 

, чтобы максимизировать выигрыш 

. Как изменится ответ, если X - вектор?
Думаю можно для начала предположить, что функция одна 

 и линейно зависит от X, то есть 

 и 

 линейно зависит от 

 , тогда имеем линейную регрессию. Допустим 

, тогда выбираем первые несколько раз наугад, затем оцениваем коэффициенты на каждом шаге и определяем какой 

 использовать.
Если функций больше и зависимости линейные, то 

 можно представить в виде 

, где 

. Таким образом снова имеем линейную регрессию.
Если функции 

 нелинейные, но 

 линейно зависит от них, то имеем 

. В данном случае палагаю нужно использовать алгоритмы ML, затрудняюсь сказать какие.
Если 

 нелинейно зависит от функций и функции нелинейно зависят от 

, то наверное тоже нужно использовать ML.
Верно ли изложил подход, подскажите, пожалуйста?